A Deep Web (más néven "Invisible Web", "Deep Web", "Deep Internet"; angol deep web ;) olyan világháló weboldalak halmaza, amelyeket a keresőmotorok nem indexelnek .
A kifejezés az acc. angol láthatatlan web [1] . A mélyweb legjelentősebb része a Deep Web (az angol. deep web, hidden web ), amely online adatbázisok lekérdezései által dinamikusan generált weboldalakból áll [2] .
A Deep Web fogalmát nem szabad összetéveszteni a Dark Web fogalmával (az angol dark web szóból ), amely hálózati szegmensekre utal , bár csatlakozik az általános internethez , de bizonyos szoftvereszközöket igényel a hozzáféréshez.
A mélyweb olyan weboldalakat tartalmaz , amelyek nem kapcsolódnak más hiperhivatkozásokhoz (például olyan zsákutcás weboldalak, amelyeket dinamikusan hoznak létre magukon a webhelyeken, igény szerint szkriptek, amelyekre a közvetlen hivatkozások nem vezetnek), valamint olyan webhelyeket , amelyek csak regisztrált felhasználók számára elérhető felhasználók és weboldalak csak jelszóval érhetők el.
A keresőmotorok speciális keresőrobotokat használnak , amelyek követik a hiperhivatkozásokat , és indexelik azoknak a weboldalaknak a tartalmát, amelyeken találják magukat, beírva a tartalmaikat és a rájuk mutató hiperhivatkozásokat adatbázisaikba. Miután az indexelt weboldalon más oldalakra mutató hivatkozásokat talált, a keresőbot követi azokat, és indexeli az egyes talált oldalak tartalmát, új hiperhivatkozásokat talál, és azokat követi indexelés céljából; az indexelt oldalakon kívülre vezető hivatkozásokra való kattintás következtében az indexelt weboldalak száma folyamatosan növekszik. A keresőbot nem tud eljutni olyan weboldalakhoz, amelyekre nem hivatkoznak más oldalakról, ezért ezeknek az oldalaknak a tartalma nincs indexelve. Ennek eredményeként a Deep Web egy webhelyének vagy weboldalának URL -címének ismerete nélkül egy átlagos felhasználó nem tudja elérni azokat.
A Deep Web olyan webhelyeket is tartalmaz, amelyek tulajdonosai önként megtagadták, hogy a keresőmotorok indexeljék őket (például a „robots.txt” fájl használatával ), valamint olyan webhelyeket és weboldalakat, amelyeket felhatalmazás véd a harmadik felek információinak megtekintésére. Ebben az esetben a weboldal bejelentkezési nevének és (vagy) jelszavának ismerete nélkül lehetetlen annak tartalmát teljes körűen megtekinteni, illetve a weboldalt használni.
A mélyháló mérete ismeretlen. Viszonylag megbízható becslések állnak rendelkezésre az online adatbázisokhoz vezető webhelyek teljes számáról: 2004-ben körülbelül 300 000 ilyen webhely volt a teljes weben , 2006-ban pedig körülbelül 14 000 a RuNeten [3] [4] .
2005 -ben a Yahoo! komoly lépést tett a probléma megoldása felé. A cég kiadta a „Yahoo! Előfizetések”, amely olyan webhelyeket keres (még mindig kevés), amelyekhez csak ezen oldalak regisztrált tagjai férhetnek hozzá. Ez azonban nem oldotta meg teljesen a fennálló problémát. A keresőmotor-szakértők továbbra is technikai lehetőségeket keresnek az adatbázisok tartalmának indexelésére és a magánwebhelyek elérésére.
Az egyik népszerű mélyhálós adatszolgáltatás az UFOseek , amelyet eredetileg paranormális adatok rendszerezésére terveztek [5] .
Bár nem mindig lehet közvetlenül megtalálni egy adott webszerver tartalmát, hogy indexelhető legyen, mégis el lehet érni egy ilyen oldalt (a számítógép biztonsági rései miatt ).
A webes tartalom felfedezéséhez a keresőmotorok webrobotokat használnak, amelyek az ismert protokoll virtuális portszámain keresztül követik a hiperhivatkozásokat. Ez a módszer ideális a világhálón található tartalom felfedezéséhez , de gyakran hatástalan, ha a mélyhálón keres tartalomra. Például a webrobotok nem keresnek olyan dinamikus oldalakat, amelyek adatbázis-lekérdezések eredményeként jöttek létre, mivel ezek a lekérdezések határozatlan számúak. Megjegyezték, hogy ez (részben) áthidalható a lekérdezési eredményekre mutató hivatkozások biztosításával, de ez akaratlanul is növelheti a mélyhálózat egy tagjának népszerűségét.
Számos keresőmotor hozzáfért a mélywebhez. Az Intute befejezte a finanszírozását, és 2011 júliusától ideiglenes archívum. A Scirus 2013. január végén bezárt.
A kutatók azt tanulmányozták, hogyan lehet automatikusan átvizsgálni a mély webet, beleértve azokat a tartalmakat is, amelyekhez csak dedikált szoftverrel, például Tornal lehet hozzáférni . 2001-ben Sriram Raghavan és Hector Garcia-Molina (Stanfordi Egyetem, Stanfordi Számítástechnikai Tanszék ) egy olyan rejtett keresőmotor építészeti modelljét mutatta be, amely a felhasználók által megadott vagy a lekérdezési felületekről gyűjtött kulcsszavakat használta a mélyweb lekérdezéséhez és feltérképezéséhez.
A kereskedelmi keresőmotorok elkezdték feltárni az alternatív módszereket a mélyháló feltérképezésére. A Webhelytérkép -protokoll (először a Google fejlesztette ki és vezette be 2005-ben) és a mod_oai olyan mechanizmusok, amelyek lehetővé teszik a keresőmotorok és más érdekelt felek számára, hogy mélyweb-erőforrásokat fedezzenek fel meghatározott webszervereken. Mindkét mechanizmus lehetővé teszi a webszerverek számára, hogy elérhető URL-eket tároljanak rajtuk, ami lehetővé teszi azon erőforrások automatikus felderítését, amelyek nem kapcsolódnak közvetlenül a világhálóhoz . A Google mélywebes navigációs rendszere kiszámítja az egyes HTML-űrlapok nézeteit, és a kapott HTML-oldalakat hozzáadja a Google keresőmotor indexéhez. Az eredmények másodpercenként 1000 mélyweb-tartalom kérésén alapulnak. Ebben a rendszerben a reprezentáció előszámítása három algoritmus segítségével történik: