Webkaparás

A webes kaparás (vagy scraping, vagy scraping ← magyarul web scraping ) egy olyan technológia, amellyel webes adatok kinyerhetők a webes erőforrás oldalakról [1] . A webkaparást a számítógép-felhasználó manuálisan is elvégezheti, de ez a kifejezés általában olyan kóddal megvalósított automatizált folyamatokra vonatkozik, amelyek GET kéréseket küldenek a célhelyre [2] .

A webkaparást arra használják, hogy szintaktikailag átalakítsák a weboldalakat használhatóbb formákká [3] . A weboldalak szöveges jelölőnyelvekkel ( HTML és XHTML ) készülnek, és sok hasznos adatot tartalmaznak a kódban. A legtöbb webes erőforrás azonban a végfelhasználóknak és nem az automatizált használhatóságnak szól, ezért olyan technológiát fejlesztettek ki, amely "megtisztítja" a webes tartalmat.

Az oldal betöltése és megtekintése a technológia legfontosabb összetevői, az adatgyűjtés szerves részét képezik [4] .

Történelem

A webkaparás története az Internet megjelenésével kezdődik.

1993 júniusában megszületett az első webrobot, a World Wide Web Wanderer, amelyet csak a világháló méretének mérésére szántak [ 5] [6] .
1993 decemberében jelent meg az első WWW keresőmotor , amely egy webrobot [ 7] munkájára támaszkodott - JumpStation . Már képes volt nyomon követni az információkat, indexelni, és szókeresést [8] végezni , linkeket rangsorolni.
1994-ben indult el az első teljes szövegű kereső, a WebCrawler [9] [10] .
2000-ben jelent meg az első Web API és Crawler API [10] . Ebben az évben a Salesforce és az eBay elindította saját API-ját, amely hozzáférést biztosított a programozóknak néhány nyilvánosan elérhető adathoz. Azóta sok webhely kínált webes API-t, amely sokkal könnyebbé tette a webkaparást.
2004 -ben indult a Python számára tervezett Beautiful Soup Mivel nem minden weboldal kínál API-t, a programozók új megoldást kerestek a webkaparásra ilyen esetekben. Ez a megoldás a Beautiful Soup könyvtár volt, amely elemzés segítségével határozza meg az oldal szerkezetét, amely segít a HTML oldalak tartalmának elemzésében és visszakeresésében [10] . A Beautiful Soup a legösszetettebb és legfejlettebb webkaparó könyvtárnak számít [11] .
2018-ban az internet több mint 1,8 milliárd webhelyet képviselt [12] . A webkaparás tette kereshetővé az újonnan megjelenő világhálót, majd a gyorsan növekvő internet kényelmesebbé és elérhetőbbé vált [10] .

Módszerek

A webkaparás az aktív fejlesztés területe, megosztva egy ambiciózus ember-számítógép interakciós kezdeményezést, amely áttörést igényel az online oldalak szövegének mesterséges intelligencia általi feldolgozásában és megértésében. A modern lekaparási megoldások az ad hoctól az emberi erőfeszítést igénylőtől a teljesen automatizált rendszerekig terjednek, amelyek képesek teljes webhelyeket meghatározott formátumú strukturált információkká alakítani. Ideális esetben az a webhely, amelynek adatait le kell kérni, egy API-n keresztül biztosítja őket, engedélyezett tartományok közötti hozzáféréssel [13] . Abban az esetben, ha ez nem így van, más kaparási módszerek is alkalmazhatók.

"Másolás-beillesztés" kézzel

Néha még a legjobb webkaparási technológia sem helyettesítheti az ember manuális munkáját, amikor a felhasználó szöveget másol és beilleszt. Bizonyos esetekben ez az egyetlen lehetséges megoldás, például amikor a webhelyek blokkolják a webkaparást és a szövegmásolást.

Proxy szolgáltatás hívása

Ha az oldal egy html vagy xml formátumú dokumentum, és a domainek közötti kérések engedélyezettek, akkor a dokumentum tartalmát az interneten elérhető proxyszolgáltatások valamelyikének kérésével érheti el [13] .

Text Pattern Matching

Egyszerű, de hatékony módja annak, hogy információkat szerezzen a weboldalakról. Alapozhat a UNIX grep parancsán (keressen egy vagy több fájlban egy mintát [14] ), vagy reguláris kifejezés-illesztésen programozási nyelvekben (például Perl vagy Python ).

HTML elemzése

Sok webhely nagyszámú oldalból áll, amelyeket dinamikusan generálnak egy alapvető strukturált forrásból, az adatbázisból. Az azonos kategóriájú adatok általában hasonló oldalakra vannak kódolva egy közös szkript vagy sablon segítségével. Az adatbányászatban azt a programot, amely észleli az ilyen mintákat egy adott információforrásban, kivonja annak tartalmát, és formára fordítja, wrappernek nevezzük. Feltételezzük, hogy a rendszer elemzett oldalai egy közös mintához igazodnak, és könnyen azonosíthatók egy közös URL-séma alapján [15] . Ezenkívül néhány félig strukturált adatlekérdezési nyelv, mint például az XQuery és a HTML, használható HTML-oldalak elemzésére, valamint oldaltartalom kivonására és átalakítására.

Dokumentumobjektum modell ( DOM)

A DOM egy program API-val HTML és XML dokumentumokhoz [16] . Egy teljes webböngésző, például az Internet Explorer vagy a Mozilla Browser Control beágyazásával a programok lekérhetik a kliensoldali szkriptek által generált dinamikus tartalmat. Egy DOM-fa lekaparásával hozzáférhet az egyes részeihez tartozó információkhoz [17] .

Függőleges adatösszesítés

Számos cég fejlesztett ki speciális online platformokat, amelyek sok botot hoznak létre és vezérelnek. A botok közvetlen emberi beavatkozás nélkül működnek, ugyanakkor a felhasználókkal való interakciójuk a céloldallal való kommunikáció nélkül történik. A felkészülés része egy tudásbázis létrehozása, melynek köszönhetően botok munkája lehetséges. A robotok a meghatározott feltételeknek megfelelően összesítik az egyes erőforrások egyedi tulajdonságaira vonatkozó adatokat a kapott tulajdonságértékek további összehasonlítása és elemzése céljából [18] . A platform megbízhatóságát a kapott információ minősége (általában a mezők száma) és méretezhetősége (akár több száz vagy több ezer oldal) méri. Ezt a méretezhetőséget főként egy hosszú webhelykód végén található adatok konvertálására használják, amelyeket a hagyományos aggregátorok nehéznek vagy túl időigényesnek találnak a tartalom összegyűjtése.

Szemantikus megjegyzések felismerése

Egyes oldalak tartalmazhatnak metaadatokat vagy szemantikai jelöléseket és megjegyzéseket, a szemantikus annotáció felismerési módszerrel ezek az oldalakról kinyerhetők [19] .

Oldalelemzők

Fejlesztések zajlanak a mesterséges intelligencia területén, amikor a gépi látás azonosítja az adatokat, értelmezi azokat, mintha az ember csinálná, és kivonja azokat [20] .

A Web scraping technológia kényelmes a weboldalak adatainak kényelmesebb formákba való fordítására, azonban léteznek olyan elemzési módszerek is , amelyek nyitott API esetén hatékonyabban tudják megoldani a problémát [21] .

Alkalmazás

A webkaparás az internetes automatizált információgyűjtés fontos eszközévé vált. Az adatbázisok vagy adatbankok kialakítására szolgáló marketing információs rendszerek (MIS) része, melynek köszönhetően táblázatos jelentések formájában biztosítják a szükséges információkat [22] . A keresőmotor-technológiák, a tartalom-aggregátorok a webkaparó programokkal is összekapcsolódnak [23] .

A webkaparás az adatmásolás egyik formája, amelynek során bizonyos, a megszerzéshez szükséges információkat összegyűjtenek az Internetről, és felhalmozzák, általában egy központi helyi adatbázisban vagy táblázatban, későbbi kinyerés vagy elemzés céljából [24] . A webkaparó szoftver közvetlenül elérheti a világhálót a Hypertext Transfer Protocol használatával, valamint egy webböngészőn keresztül.

Az így létrejövő oldaltartalom értelmezhető, újraformázható, táblázatba másolható stb. A webes lemásolás általában egy adatdarabot vesz el egy oldalról, hogy más célra felhasználhassa. A lekaparásra példa lehet a különböző webhelyeken történő keresés, valamint egy bizonyos tárgyhoz tartozó nevek, telefonszámok, e-mail címek, URL -ek másolása névjegyadatbázis létrehozásához.

A webkaparók alapvetően a következő feladatokat oldják meg:

Keresse meg a szükséges információkat;
Adatok másolása az internetről;
Frissítések figyelése a webhelyeken [25] .

A webkaparás használható önálló eszközként és célzott információkeresésként is szolgálhat, emellett a webfejlesztés összetevőjévé válhat webindexeléshez, webbányászathoz és adatbányászathoz, online megfigyeléshez, árváltozásokhoz és összehasonlításhoz, verseny megfigyelésére. és egyéb adatgyűjtés.

Programok és analógok

A webkaparó programokat nem hétköznapi felhasználóknak tervezték, programozók dolgoznak velük, akik a legtöbb esetben konkrét feladatokhoz írnak kódokat. Az interneten különféle eszközöket és eszközöket találhatunk a webkaparáshoz: könyvtárak, alkalmazások, online szolgáltatások, felhőszolgáltatások, DaaS típusú szolgáltatások, böngészőbővítmények. Az egyik népszerű kaparóeszköz a Scrapy (ez egy ingyenes és nyílt forráskódú keretrendszer [26] ) . A legnépszerűbb kereskedelmi platform az Import.IO [27] .

Vannak olyan fejlesztések, például a Nokogiri, amelyet kifejezetten a Ruby programozási nyelvhez hoztak létre [21] , olyan kaparók, amelyek egy adott feladatot hajtanak végre a sokféle lehetséges közül: az Outwit Hub [28] szöveges információkat gyűjt és oszt el a cellák között. A webkaparás új formái közé tartozik a webszerverek adatfolyamainak meghallgatása. Például a JSON-t általában átviteli mechanizmusként használják az ügyfél és a webszerver közötti adatok tárolására.

Az API-hozzáférést használó webhelyekről származó adatok lekérése is hatékony. Az olyan cégek, mint az Amazon AWS és a Google Google (API Discovery szolgáltatás), ingyenes lekaparási eszközöket, szolgáltatásokat és nyilvános adatokat biztosítanak a végfelhasználóknak.

A zárak védelmének és megkerülésének módjai

Vannak módszerek a webhelyek webkaparásának megakadályozására, például észlelik és blokkolják, hogy a robotok feltérképezzék (megtekintsék) az oldalaikat. Erre válaszul léteznek olyan webkaparó rendszerek, amelyek a DOM-elemzés, a számítógépes látás és a természetes nyelvi feldolgozási technikák használatára támaszkodnak az emberi böngészés szimulálására, hogy a weboldal tartalmát offline elemzéshez gyűjtsék össze.

A rendszergazdák letilthatják a webkaparó programokat, hogy megakadályozzák, hogy a versenytársak felhasználják az információkat. A kaparó programok a következő jellemzőkről ismerhetők fel:

Szokatlan felhasználói viselkedés (például másodpercenként több száz áttérés a webhely új oldalára);
Ismétlődő nem meggyőző műveletek (a felhasználó nem fogja újra és újra végrehajtani ugyanazokat a feladatokat);
Olyan hivatkozások használata, amelyek csak a webhely kódjában találhatók, és nem láthatók a hétköznapi felhasználók számára [29] .

Blokkolási módszerek:

A webhelyhez való hozzáférés megtagadása egy adott IP-címről (például ha a bot munkamenetenként több mint 100 oldalon ment keresztül);
A felhasználói azonosító megtagadása, amely a webhely adminisztrátora szempontjából a webhelyre hitelesítéssel belépő támadó [25] .

A blokkolás megkerüléséhez a webkaparó programoknak olyan műveleteket kell végrehajtaniuk a webhelyen, amelyek a lehető legközelebb állnak a felhasználói viselkedéshez. Ezért időnként váltogatni kell az IP-címeket, módosítani kell a felhasználói ügynök azonosítóját ( User Agent ), és be kell állítani a webkaparó találatainak sebességét az optimálisra, a találatok között pedig - véletlenszerű műveleteket kell beépíteni a webhelyen, amelyek nem keltenek gyanút [29] .

Jogi jellemzők

A webkaparás jogi vonatkozásait a személyes adatok védelmére vonatkozó jogszabályok szabályozzák . Oroszországban a szabályozó dokumentum a 152 szövetségi törvény "A személyes adatokról" [30] . Az Európai Unióban a kaparóknak meg kell felelniük az általános adatvédelmi rendeletnek (GDPR) [31] . Franciaországban 2020 áprilisa óta a Nemzeti Informatizálási és Szabadságügyi Bizottság (CNIL) által kiadott külön szabályozó dokumentum van érvényben, amely korlátozza a személyes adatok nyílt forrásokból történő gyűjtését [32] .

Lásd még

Jegyzetek

↑ Boeing, G.; Waddell, P. Új betekintés a bérlakáspiacra az Egyesült Államokban: Webes kaparás és a Craigslist bérbeadási listák elemzése // Journal of Planning Education and Research. - 2016. - doi : 10.1177/0739456X16664789 . - arXiv : 1605.05397 .
↑ Web-kaparás és naiv Bayes-szövegosztályozás . cyberleninka.ru. Letöltve: 2020. január 14. Az eredetiből archiválva : 2019. december 13. (határozatlan)
↑ Tyutyarev A. A., Solomatin D. I. Keretrendszer fejlesztése webkaparók létrehozásához // A tudomány problémái. - 2016. - V. 3 , 13. sz . Archiválva az eredetiből 2021. január 25-én.
↑ Vargiu és Urru. A webkaparás kihasználása a webes hirdetések együttműködésen alapuló szűrésen alapuló megközelítésében // Artificial Intelligence Research. - 2013. - 2. szám (1) . - doi : 10.5430/air.v2n1p44 .
↑ World Wide Web Wanderer . Letöltve: 2020. január 9. Az eredetiből archiválva : 2020. január 3. (határozatlan)
↑ Az első webrobot – 1993 . Letöltve: 2020. január 9. Az eredetiből archiválva : 2021. január 19. (határozatlan)
↑ A keresőmotor találati oldalainak megjelenítési stílusának hatása a felhasználói elégedettségre és a szemmozgásokra | Szemantikai tudós
↑ Valeria Cherepenchuk, Irina Lomakina, Natalya Serdtseva. Technológiák, amelyek megváltoztatták a világot . — Liter, 2019-12-13. — 322 p. - ISBN 978-5-04-220661-0 .
↑ S. Kingsnorth. Digitális Marketing Stratégia . — ISBN 9785041757397 .
↑ 1 2 3 4 Webkaparás : Hogyan kezdődött és lesz minden . www.octoparse.com. Letöltve: 2020. január 9. Az eredetiből archiválva : 2020. augusztus 7..
↑ Gyönyörű leves: Teknősnek hívtuk, mert tanított minket. . www.crummy.com Letöltve: 2020. január 14. Az eredetiből archiválva : 2022. március 27. (határozatlan)
↑ Jeff Desjardins. Mi történik egy internetes percben 2018-ban? . www.visualcapitalist.com . Visual Capitalist (2018. május 14.). Letöltve: 2020. január 14. Az eredetiből archiválva : 2019. november 11. (határozatlan)
↑ 1 2 Kitaev E. L., Skornyakova R. Yu., „On-the-fly scraping of external websources by control by HTML page markup”, Keldysh Institute preprints. M. V. Keldysha, 2019, 020, 31 p. . www.mathnet.ru Letöltve: 2020. március 7. (határozatlan)
↑ Demidova O.O., Saveliev A.O. Weboldalakból származó adatok kinyerésének technikáinak összehasonlító elemzése a tudományos publikációk klaszterezési problémájának megoldásában // Elektronikus eszközök és vezérlőrendszerek. Nemzetközi tudományos-gyakorlati konferencia beszámolóinak anyagai..
↑ Dal, Ruihua. Joint Optimization of Wrapper Generation and Template Detection" (PDF) . The 13th International Conference on Knowledge Discovery and Data Mining . Microsoft Research (2007. szeptember 14.). Letöltve: 2019. november 27. Az eredetiből archiválva : 2019. november 27.. (határozatlan)
↑ Mi az a dokumentumobjektum-modell? . www.w3.org. Letöltve: 2020. január 9. Az eredetiből archiválva : 2019. május 6.. (határozatlan)
↑ Song R. A csomagolóanyag-generálás és a sablonészlelés közös optimalizálása // The 13th International Conference on Knowledge Discovery and Data Mining. - 2007. - S. 13-20 .
↑ Adatok aggregálására és átalakítására szolgáló módszer és eszköz ennek megvalósítására . findpatent.ru. Letöltve: 2020. március 9. (határozatlan)
↑ Mi az a FreeFormat . www.gooseeker.com Letöltve: 2020. március 7. Az eredetiből archiválva : 2019. december 3.
↑ Xconomy: A Diffbot Computer Visiont használ a szemantikus web újrafeltalálására . Xconomy (2012. július 25.). Letöltve: 2020. március 7. Az eredetiből archiválva : 2020. február 29.
↑ 1 2 Tim Jones M. Információk kinyerése az internetről a Ruby nyelv használatával (2014. május 22.). Letöltve: 2019. december 13. Az eredetiből archiválva : 2019. december 13. (határozatlan)
↑ Pavlov N. V. A marketingkutatás módszerei .
↑ Joyce G. (Hozzáférés: 19. 06. 01. Data Reveals the GRAMMYs 2017 Highlights on Social Media . Letöltve : 2019. december 17. Az eredetiből archiválva : 2019. december 17. (határozatlan)
↑ Basalaeva A. Yu., Gareeva G. A., Grigoryeva D. R. Web scraping and text classification by Naive Bayes // Innovative Science. - 2018. - 5-2. sz . — ISSN 2410-6070 . Az eredetiből archiválva : 2019. december 13.
↑ 1 2 Moskalenko A. A., Laponina O. R., Sukhomlin V. A. Webkaparó alkalmazás fejlesztése a blokkolás megkerülésére // Modern információs technológiák és informatikai oktatás. - 2019. - T. 15 , 2. sz . - S. 413-420 . - doi : 10.25559 .
↑ Scrappy | Gyors és hatékony kaparási és webes feltérképezési keretrendszer . scrapy.org. Letöltve: 2020. március 7. Az eredetiből archiválva : 2020. március 22. (határozatlan)
↑ Webes adatintegráció – Import.io – Adatkinyerés, webes adatok, webes adatgyűjtés, adat-előkészítés, adatintegráció . import.io. Letöltve: 2020. március 7. Az eredetiből archiválva : 2020. március 5.
↑ Üvegházhatású oktatóvideó: Mi az a webkaparás ? te-st.ru . Letöltve: 2019. december 13. Az eredetiből archiválva : 2019. december 13. (határozatlan)
↑ 1 2 Moskalenko A. A., Laponina O. R., Sukhomlin V. A. Webkaparó alkalmazás fejlesztése a blokkolás megkerülésére // Modern információs technológiák és informatikai oktatás. - 2019. - V. 5 , 2. sz .
↑ Hogyan kerülhetik el a webhelytulajdonosok a 152-FZ - "A személyes adatokról szóló" szövetségi törvény szerinti bírságokat ? PDMaster.ru - Információs portál a személyes adatokról (2020. április 15.). Letöltve: 2020. július 5. Az eredetiből archiválva : 2020. július 5. (Orosz)
↑ Legal Web Scraping – Webkaparó szolgáltatás magyarázata . A FindDataLab webkaparási szolgáltatása (2020. április 6.). Letöltve: 2020. július 5. Az eredetiből archiválva : 2021. január 28.
↑ FindDataLab.com. Továbbra is végezhet webkaparást az új CNIL-irányelvekkel? (angol) . Közepes (2020. június 9.). Letöltve: 2020. július 5. Az eredetiből archiválva : 2020. július 5.

Irodalom

Kitaev E. L., Skornyakova R. Yu. StructScraper — Eszköz külső webes erőforrások szemantikai adatainak dinamikus felvételéhez egy weboldal tartalmába // Tudományos szolgáltatás az interneten. — 2019.
Kitaev E. L., Skornyakova R. Yu. Külső webes erőforrások menet közbeni kaparása HTML-oldaljelöléssel. M. V. Keldysh. - 2019. - 20. sz. - DOI : 10.20948/prepr-2019-20.
Soloshchenko M. V., Karamova A. I. Implementation of data import from web-resources // Modern mathematics and its applications : Cikk a konferencia kiadványában. – Ufa, 2017.
Tyutyarev A. A., Solomatin D. I. Keretrendszer fejlesztése webkaparók létrehozásához // Voprosy nauki. - 2016. - V. 3., 13. sz.
Adamuz P.L. Általános tesztágy fejlesztése a hálókaparáshoz. Barcelona: Európai Oktatási és Képzési Akkreditációs Központ, 2015.
Boeing, G.; Waddell, P. Új betekintés a bérlakáspiacra az Egyesült Államokban: Webes kaparás és a Craigslist bérbeadási listák elemzése // Journal of Planning Education and Research. - 2016. - DOI : 10.1177/0739456X16664789. - arXiv :1605.05397.
Huan Liu, Fred Morstatter, Jiliang Tang, Reza Zafarani. A jó, a rossz és a csúnya: új kutatási lehetőségek feltárása a közösségi média bányászatában (angol) // International Journal of Data Science and Analytics. — 2016-11. — Vol. 1, iss. 3-4. — ISSN 2364-4168 2364-415X, 2364-4168. - DOI :10.1007/s41060-016-0023-0.
Geoff Boeing, Paul Waddell. Új betekintés a bérlakáspiacokba az Egyesült Államokban: Webkaparás és Craigslist bérbeadási listák elemzése // Journal of Planning Education and Research. — 2017-12. — Vol. 37, iss. 4. - ISSN 1552-6577 0739-456X, 1552-6577. — DOI :10.1177/0739456X16664789.
Rizqi Putri Nourma Budiarti, Nanang Widyatmoko, Mochamad Hariadi, Mauridhi Hery Purnomo. Webkaparás automatizált vízminőség-ellenőrző rendszerhez: A PDAM Surabaya esettanulmánya // 2016 International Seminar on Intelligent Technology and its Applications (ISITIA). — Lombok, Indonézia: IEEE, 2016-07. - ISBN 978-1-5090-1709-6 . — DOI :10.1109/ISITIA.2016.7828735.