Mélyháló

A Deep Web (más néven "Invisible Web", "Deep Web", "Deep Internet"; angol deep web ;) olyan világháló weboldalak halmaza, amelyeket a keresőmotorok nem indexelnek .

A kifejezés az acc. angol láthatatlan web [1] . A mélyweb legjelentősebb része a Deep Web (az angol. deep web, hidden web ), amely online adatbázisok lekérdezései által dinamikusan generált weboldalakból áll [2] .

A Deep Web fogalmát nem szabad összetéveszteni a Dark Web fogalmával (az angol dark web szóból ), amely hálózati szegmensekre utal , bár csatlakozik az általános internethez , de bizonyos szoftvereszközöket igényel a hozzáféréshez.

A probléma lényege

A mélyweb olyan weboldalakat tartalmaz , amelyek nem kapcsolódnak más hiperhivatkozásokhoz (például olyan zsákutcás weboldalak, amelyeket dinamikusan hoznak létre magukon a webhelyeken, igény szerint szkriptek, amelyekre a közvetlen hivatkozások nem vezetnek), valamint olyan webhelyeket , amelyek csak regisztrált felhasználók számára elérhető felhasználók és weboldalak csak jelszóval érhetők el.

A keresőmotorok speciális keresőrobotokat használnak , amelyek követik a hiperhivatkozásokat , és indexelik azoknak a weboldalaknak a tartalmát, amelyeken találják magukat, beírva a tartalmaikat és a rájuk mutató hiperhivatkozásokat adatbázisaikba. Miután az indexelt weboldalon más oldalakra mutató hivatkozásokat talált, a keresőbot követi azokat, és indexeli az egyes talált oldalak tartalmát, új hiperhivatkozásokat talál, és azokat követi indexelés céljából; az indexelt oldalakon kívülre vezető hivatkozásokra való kattintás következtében az indexelt weboldalak száma folyamatosan növekszik. A keresőbot nem tud eljutni olyan weboldalakhoz, amelyekre nem hivatkoznak más oldalakról, ezért ezeknek az oldalaknak a tartalma nincs indexelve. Ennek eredményeként a Deep Web egy webhelyének vagy weboldalának URL -címének ismerete nélkül egy átlagos felhasználó nem tudja elérni azokat.

A Deep Web olyan webhelyeket is tartalmaz, amelyek tulajdonosai önként megtagadták, hogy a keresőmotorok indexeljék őket (például a „robots.txt” fájl használatával ), valamint olyan webhelyeket és weboldalakat, amelyeket felhatalmazás véd a harmadik felek információinak megtekintésére. Ebben az esetben a weboldal bejelentkezési nevének és (vagy) jelszavának ismerete nélkül lehetetlen annak tartalmát teljes körűen megtekinteni, illetve a weboldalt használni.

Skála

A mélyháló mérete ismeretlen. Viszonylag megbízható becslések állnak rendelkezésre az online adatbázisokhoz vezető webhelyek teljes számáról: 2004-ben körülbelül 300 000 ilyen webhely volt a teljes weben , 2006-ban pedig körülbelül 14 000 a RuNeten [3] [4] .

Deep Web Search

2005 -ben a Yahoo! komoly lépést tett a probléma megoldása felé. A cég kiadta a „Yahoo! Előfizetések”, amely olyan webhelyeket keres (még mindig kevés), amelyekhez csak ezen oldalak regisztrált tagjai férhetnek hozzá. Ez azonban nem oldotta meg teljesen a fennálló problémát. A keresőmotor-szakértők továbbra is technikai lehetőségeket keresnek az adatbázisok tartalmának indexelésére és a magánwebhelyek elérésére.

Az egyik népszerű mélyhálós adatszolgáltatás az UFOseek , amelyet eredetileg paranormális adatok rendszerezésére terveztek [5] .

Tartalomtípusok

Bár nem mindig lehet közvetlenül megtalálni egy adott webszerver tartalmát, hogy indexelhető legyen, mégis el lehet érni egy ilyen oldalt (a számítógép biztonsági rései miatt ).

A webes tartalom felfedezéséhez a keresőmotorok webrobotokat használnak, amelyek az ismert protokoll virtuális portszámain keresztül követik a hiperhivatkozásokat. Ez a módszer ideális a világhálón található tartalom felfedezéséhez , de gyakran hatástalan, ha a mélyhálón keres tartalomra. Például a webrobotok nem keresnek olyan dinamikus oldalakat, amelyek adatbázis-lekérdezések eredményeként jöttek létre, mivel ezek a lekérdezések határozatlan számúak. Megjegyezték, hogy ez (részben) áthidalható a lekérdezési eredményekre mutató hivatkozások biztosításával, de ez akaratlanul is növelheti a mélyhálózat egy tagjának népszerűségét.

Számos keresőmotor hozzáfért a mélywebhez. Az Intute befejezte a finanszírozását, és 2011 júliusától ideiglenes archívum. A Scirus 2013. január végén bezárt.

A kutatók azt tanulmányozták, hogyan lehet automatikusan átvizsgálni a mély webet, beleértve azokat a tartalmakat is, amelyekhez csak dedikált szoftverrel, például Tornal lehet hozzáférni . 2001-ben Sriram Raghavan és Hector Garcia-Molina (Stanfordi Egyetem, Stanfordi Számítástechnikai Tanszék ) egy olyan rejtett keresőmotor építészeti modelljét mutatta be, amely a felhasználók által megadott vagy a lekérdezési felületekről gyűjtött kulcsszavakat használta a mélyweb lekérdezéséhez és feltérképezéséhez.

A kereskedelmi keresőmotorok elkezdték feltárni az alternatív módszereket a mélyháló feltérképezésére. A Webhelytérkép -protokoll (először a Google fejlesztette ki és vezette be 2005-ben) és a mod_oai olyan mechanizmusok, amelyek lehetővé teszik a keresőmotorok és más érdekelt felek számára, hogy mélyweb-erőforrásokat fedezzenek fel meghatározott webszervereken. Mindkét mechanizmus lehetővé teszi a webszerverek számára, hogy elérhető URL-eket tároljanak rajtuk, ami lehetővé teszi azon erőforrások automatikus felderítését, amelyek nem kapcsolódnak közvetlenül a világhálóhoz . A Google mélywebes navigációs rendszere kiszámítja az egyes HTML-űrlapok nézeteit, és a kapott HTML-oldalakat hozzáadja a Google keresőmotor indexéhez. Az eredmények másodpercenként 1000 mélyweb-tartalom kérésén alapulnak. Ebben a rendszerben a reprezentáció előszámítása három algoritmus segítségével történik:

kulcsszavakat elfogadó szöveges keresési bemenetek kiválasztása;
bizonyos bemenetek, amelyek csak egy bizonyos típusú értékeket fogadnak el (például dátumok);
kis számú beviteli kombináció kiválasztása, amelyek a webes keresési indexbe való felvételre alkalmas URL-eket generálnak.

Lásd még

Jegyzetek

↑ Gary Price, Chris Sherman. A láthatatlan web: A keresőmotorok által nem látott információforrások feltárása. - CyberAge Books, 2001 , ISBN 0-910965-51-X .
↑ Denis Shestakov, Natalia Vorontsova (2005). " A mélyháló orosz nyelvű részének felépítése (elérhetetlen link) ". Internet Mathematics 2005 , 320-341.
↑ Denis Shestakov (2011). " Mintavétel a National Deep Web-ről (hivatkozás nem érhető el) ". A 22. Nemzetközi Adatbázis- és Szakértői Rendszeralkalmazások Konferencia (DEXA) anyaga, 331-340.
↑ Mekkora az internet? . Letöltve: 2015. július 30. Az eredetiből archiválva : 2015. június 29. (határozatlan)
↑ Igor Raikhman, 2013 , p. 118.

Irodalom

Igor Raykhman. A médiamérés gyakorlata. Könyvvizsgálat. Jelentés. A PR hatékonyságának értékelése. — M .: Alpina Kiadó , 2013. — 432 p. - ISBN 978-5-9614-4499-5 .