A weboldal archiválása ( web archiválás , angol web archiválás ) a weboldalak és teljes webhelyek összegyűjtésének és „megkettőzésének” folyamata az információk mentése és a jövőbeni hozzáférés érdekében, ha a forrás nem áll rendelkezésre. A webarchiválás fejlődésének előfeltétele a linkek kihalásának problémája és a digitális sötét korszak lehetséges beköszöntése volt . 1996-ban létrehozták az " Internet Archívumot " - az első non-profit szervezetet , amely azt a célt tűzte ki maga elé, hogy "pillanatképeket" készítsen az interneten található összes oldalról. 2001-ben az Archívum elindította a Wayback Machine webhelyarchiválási szolgáltatást , amelyen keresztül 2021-ig több mint 600 milliárd weboldalt mentettek el.
A 2000-es évek eleje óta számos országban – így állami szinten is – aktívan alkalmazzák a weboldal-megőrzési gyakorlatokat. Ugyanakkor léteznek fórumok a webes archiválás területén a szabványok és közös gyakorlatok kidolgozására, köztük az International Internet Archiving Workshop (IWAW) (2001 óta) és az International Internet Preservation Consortium (2003 óta).
Leggyakrabban a statikus webhelyekről származó információkat keresőrobotok (például Heritrix , Webrecorder, HTTrack ) segítségével gyűjtik össze, amelyek HTTP kéréseket küldenek a webszervereknek, és „elfogják” a továbbított tartalmat és az összes hiperhivatkozást a bejárt weboldalakról. Ezzel szemben a dinamikus webhelyek szkriptjei , sablonjai és tartalma külön erőforrásként tárolódik a webszervereken, így az ilyen portálok archiválása sokkal nehezebb. A folyamat két fő lépésben zajlik – a fájl adatainak mentése a webhely könyvtárstruktúrájából, majd az információk archiválása az adatbázisból.
A webes archiválás és a webmegőrzés ( eng. web preservation ) kifejezéseket gyakran felcserélhetően használják, de van közöttük egy fontos különbség: az első egy internetes erőforrás mentésének teljes folyamatát határozza meg, a második pedig csak az egyik szakaszt [1 ] . Az International Internet Preservation Consortium (IIPC) a webes archiválást a következőképpen határozza meg:
[...] a világháló egyes részeinek összegyűjtése, a gyűjtemények archív formátumban történő tárolása, majd az archívumok karbantartása, elérhetővé és használhatóvá tétele.
Az 1990-es évek eleje óta az információk létrehozása, tárolása és terjesztése elsősorban digitális környezetben zajlik. Az 1990-es évek közepén már a korábban népszerű adathordozók , mint például a mágnesszalagok , hajlékonylemezek , zip-meghajtók és CD -k kezdenek elavulni , és a régi fájlformátumokhoz való hozzáférés is nehézkessé vált [2] [3] . Sok olyan nagy adatbázis, amelyet nem másoltak át más adathordozóra vagy nem sokszorosítottak papíron, eltűnni kezdett [4] . Így az 1980-as években több mint egymillió ember részvételével lebonyolított nagyszabású BBC Domesday Project összes adata több lemezre került, amelyek a 2000-es évek elejére vagy eltörtek, vagy elvesztek [5] [ 6] .
Az adatok széles körben elterjedt elvesztése arra késztetett néhány kutatót, hogy megvitassák a „digitális sötét korszak ” lehetőségét – egy olyan időszakot, amelyet az írásos bizonyítékok szinte teljes hiánya jellemez [7] [8] . Egyes kutatók a 21. századot "információs fekete lyuknak" nevezik, mert attól tartanak, hogy a jövő szoftverei és számítógépei nem lesznek képesek reprodukálni a korábban létrehozott adatokat [9] . 2003-ban az UNESCO kiadta a "Chartát a digitális örökség megőrzéséről" [10] , meghatározva a digitális adatok lefoglalásának fontosságát, amelyek elvesztése az emberi örökség "elszegényedéséhez" vezethet [11] [12]. . 2015-ben Vinton Cerf amerikai tudós és a Google alelnöke kijelentette, hogy az emberiség a „digitális sötét korszak” felé halad [13] [14] [15] [16] .
A webes archiválás fejlesztésének másik előfeltétele a hivatkozások kioltása , olyan helyzet, amikor az oldalak elérhetetlenné válnak ugyanazon az URL -en, vagy megváltozik a tartalmuk [17] [18] [19] . A portugál kutatók által 2017-ben végzett elemzés kimutatta, hogy az internetes oldalak körülbelül 80%-a nem érhető el eredeti formájában egy évvel a megjelenés után, míg a tudományos cikkekben található linkek 13%-a átlagosan 27 hónap elteltével tűnt el [11] . 2021-ben a Harvard Law School tudósai a The New York Times (NYT) újságíróival együtt elemezték a linkek életképességét a NYT által 2000 és 2017 között több mint 550 000 online kiadványban – a felhasznált URL-ek körülbelül egynegyede "kihalt" " [20 ] [21] [22] [23] [24] . Egy weboldal átlagos élettartama 44-100 nap, és a híroldalakon és a közösségi oldalakon még gyorsabban tűnhetnek el az információk [25] [26] .
Az interneten található információk más okokból eltűnhetnek. Így 2015-ben az Egyesült Államok Külügyminisztériuma és az Egyesült Államok Nemzetközi Fejlesztési Ügynöksége kezdeményezte az afganisztáni háborúval kapcsolatos anyagok eltávolítását, hogy megvédje az amerikai hatóságokkal együttműködő embereket a tálibok üldöztetésétől [27] . Egy másik példa a Roszkomnadzor 2021 decemberében előterjesztett követelése, hogy távolítsák el számos orosz médiából a korábban nemkívánatos szervezetként elismert Proekt -kiadvány [28] [29] vizsgálatával kapcsolatos anyagot .
Az 1980-as évektől az egyes archívumok és könyvtárak megkezdték az elektronikus források megőrzését, hogy dokumentálják az aktuális események krónikáját. A webes archiválás kiindulópontjának azonban az „ Internet Archive ” 1996-os létrehozását tekintik – egy non-profit szervezetnek , amely ambiciózus célt tűzte ki maga elé, hogy megőrizze a teljes Internet összes weboldalát, amely akkoriban. viszonylag kevés volt [30] [1] . Az 1990-es évek végén és a 2000-es évek elején számos fejlett ország kormánya megkezdte a webes archiválási gyakorlatok alkalmazását, és azok fenntartását azokra a nemzeti könyvtárakra hárította, amelyek rendelkeznek az archiváláshoz szükséges tapasztalattal és eszközökkel [31] [11] [12] . 2000-re számos országban megjelentek a nemzeti webarchívumok, köztük az Egyesült Királyságban , Új-Zélandon , az Egyesült Államokban és a Cseh Köztársaságban [32] [33] [19] .
Azóta a webarchiválási projektek száma évről évre nő [11] . 2011-ben 42 program működött a világon, amelyek többsége regionális internetes források gyűjtésével foglalkozott [12] . Egy 2020-as tanulmány exponenciális növekedést mutatott a saját adattárral rendelkező intézmények számában , amelyet bérelt szakemberek és speciális berendezések támogatnak. A legtöbb ilyen adattárat az önarchiválás elve szerint töltenek fel - a szerzők önállóan helyezik el az anyagaikat [34] . 2019-re az Európai Unió szinte minden országában bevezették a nemzeti szintű webarchívumot , leggyakrabban a nemzeti könyvtárak munkájának részeként [32] [35] .
Az első jelentős internetes archiválási kezdeményezés az Internet Archive volt, egy 1996-ban létrehozott non-profit szervezet, amely az interneten közzétett összes anyagot megőrzi [19] . Az alkotó az amerikai Brewster Keil programozó volt, aki egyszerre indította el az "Archívumot" és az Alexa Internet kereskedelmi webarchiváló rendszert . 1997-ben kifejlesztett egy böngészőbővítményt , amelyen keresztül az Alexa Internet automatikusan azonosította és az "Archívumban" tárolta az "értékes" weboldalakat , a látogatások, a keresztlinkek és a "kattintások" száma szerint rangsorolva [36] . 1998 óta 3-6 havonta megduplázódott az archiválandó oldalak száma [37] .
2001. október 24-én az Internet Archívum elindította a Wayback Machine -t, amelyen keresztül a felhasználók több mint 10 milliárd archivált weboldalhoz férhettek hozzá. Akkoriban az adatokat a Hewlett Packard és az uslab.com szervereken tárolták, és a FreeBSD és Linux operációs rendszereken keresztül kezelték [37] .
2021-re az Archívum gyűjtemény archivált webhelyek, digitalizált könyvek, hang- és videofájlok, játékok, szoftverek számos algyűjteményéből állt [38] ; míg az archivált weboldalak száma meghaladta a 622 milliárdot [39] .
WebCiteA 2003-ban elindított WebCite volt az első webes archiváló eszköz, amely lehetővé tette a felhasználók számára, hogy igény szerint elmentsék webhelyeiket. A WebCite gyorsan népszerűvé vált, és 2005-re körülbelül 200 folyóirat kérte a szerzőket, hogy a kéziratok benyújtása előtt archiválják weboldalaikat a WebCite-on keresztül [40] . A szolgáltatás nem használ keresőrobotokat az oldalak "rögzítésére", az archiválás közvetlenül a felhasználó kérésére történik [40] .
2013-ban a WebCite-ot a finanszírozás hiánya miatt a bezárás fenyegette, de az alkotó, Günter Eisenbach nyilvános adománygyűjtő kampányának köszönhetően a portál további hat évig működött. 2019 óta csak olvashatóvá vált, és már nem fogadja az archiválási kéréseket [41] [42] .
Archívum.todayAz archive.today szolgáltatást (létrehozásakor - archive.is) 2012-ben indította el egy azonos nevű nonprofit szervezet [43] . A projektet magánszponzorok finanszírozzák. A WebCite-hoz hasonlóan az archive.today is elmenti a weboldalakat a felhasználók kérésére [44] [45] azáltal, hogy nyilvánosan elérhetővé teszi a weboldal funkcionális másolatát, valamint egy képernyőképet , amely az oldal statikus PNG -megjelenítését ábrázolja [46] . Az összes képet tartalmazó archivált oldal mérete nem haladhatja meg az 50 MB -ot [43] .
Az archive.today készítői egy Mozilla Firefox böngészőbővítményt is elindítottak, amely automatikusan menti és megosztja a felhasználó által hozzáadott minden könyvjelzővel ellátott weboldal másolatát [46] [47] .
web-archive.ruAz Orosz Föderáció saját orosz nyelvű webarchívumot is létrehozott - https://web-arhive.ru/ _
A legtöbb fejlett ország rendelkezik kötelező letéti törvényekkel, amelyek a nemzeti könyvtárakat jogilag felelőssé teszik az adott országban megjelent nyomtatott kiadványok egy példányának megőrzéséért. Az elektronikus hírközlés széles körű fejlődésével a törvény a weboldalakra is kiterjedt [1] [48] . Így a Public Records Act 1967 értelmében a Nagy-Britannia és Írország Nemzeti Levéltára köteles megőrizni az Egyesült Királyság kormányának minden fontos előírását . Ahogy a tisztviselők egyre gyakrabban teszik közzé jelentéseiket az interneten, havonta több mint 100 millió felhasználó keresi fel a webarchívumot (2013-tól) [25] .
1996-ban a Svéd Nemzeti Könyvtár kezdeményezte a Kulturar projektet, amely a teljes svéd domain hálózat nagyarányú megőrzését végezte el [49] . 2005 elejéig több mint 350 000 webhelyet, vagyis körülbelül 10 terabájtnyi adatot gyűjtöttek össze, így a webarchívum akkoriban a legnagyobb a világon [19] . 1997-ben Dánia , Finnország , Izland , Norvégia és Svédország nemzeti könyvtárai közös kezdeményezést hoztak létre Nordic Web Archive (NWA) néven. Az NWA eszközöket fejleszt és megvitatja a webes archiválási módszereket az északi országok számára. 2004-ben az NWA kiadott egy szoftvercsomagot az archivált webdokumentumok elérésére, amely ezt követően az IIPC Toolkit [19] [50] alapját képezte . Ugyanebben az évben az Ausztrál Nemzeti Könyvtár elindította a Pandorát – a digitális források megőrzését célzó projektet Ausztráliában [51] [52] [19] . 2019-ben a Pandora gyűjtemény bekerült az Australian Web Archive -be, amely a világ egyik legnagyobb nemzeti webarchívuma [53] .
2001-ben létrejött az International Internet Archiving Workshop (IWAW) [54] - a webarchiválás terén végzett kutatások és tapasztalatok cseréjének platformja [55] , majd 2003-ban az Internet Archívum kezdeményezésére a Nemzetközi Megalakult az Internet Preservation Consortium , amely szabványokat és eszközöket fejleszt a webarchiváláshoz [37] [56] . Az „Archívum” mellett az IIPC magában foglalta Franciaország , Ausztrália , Kanada , Dánia , Finnország , Izland , Olaszország , Norvégia , Svédország , Nagy-Britannia és az USA nemzeti könyvtárait . 2008-ban az IIPC kifejlesztette a Web ARChive -ot vagy a WARC -t, a webes erőforrások archiválására szolgáló formátumot [12] . 2021-ben az IIPC-nek több mint 50 tagja van [57] .
A szervezetek gyakran együttműködnek az egységes webarchívumok létrehozásában. Így 2004-től 2018-ig az Európai Digitális Archívum (későbbi nevén Internet Memory Foundation ) működött, amely az Európai Unió országaiban gyűjtötte az elektronikus dokumentumokat [58] [19] [12] . Ide tartozott többek között a Nagy-Britannia Nemzeti Levéltára, a Max Planck Társaság , a Berlini Műszaki Egyetem , a Southamptoni Egyetem , az Institut Mines-Télécom . A 2000-es évek elején a heidelbergi és leideni egyetemek sinológiai tanszékei közösen elindították a DACHS webarchívumot, amely a sinológiával kapcsolatos elektronikus anyagokat tartalmazza [59] [19] . Az olyan konzorciumok, mint az NWA és az UKWAC, együttműködési adatgyűjtési programokat működtetnek más szervezetekkel együttműködve [60] [19] [61] . Az 1990-es évek végén az Európai Bizottság finanszírozta a Networked European Deposit Library (NEDLIB) létrehozását, amely projekt az elmentett európai weboldalak összegyűjtésére, leírására, tárolására és elérhetővé tételére irányul [62] . A 2000-ben kiadott NEDLIB Harvester az egyik első keresőrobot volt, amelyet kifejezetten adatarchiválásra terveztek. Ezt követően számos projektben használták, beleértve a holland , észt és izlandi webdomainekről való adatgyűjtést [19] [63] .
2011 júliusában a Nagy-Britannia Nemzeti Levéltára az Internet Memory Foundation alapítvánnyal közösen kísérleti projektet indított a helyi hatóságok webalapú digitális archiválására. A projekt hét települési levéltárban működött, több mint 20 helyi hatóságra kiterjedően. A munkatársak ingyenes képzésben részesültek egy kurált webarchívum létrehozására szakterületükön [64] .
A fejlett országok egyetemei is részt vesznek a webarchiválás fejlesztésében. Például Michigan , Indiana , Kalifornia , Illinois és más egyetemek kínálnak kurzusokat a digitális archiválásról [54] , és több intézmény is létrehozott saját webarchívumot kutatási célokra - Stanford WebBase Archívum ( Stanford Egyetem ), Socio-Sense ( University of Tokió ), Web Információs Központ ( Peking Egyetem ) [12] .
Az archiválás megkezdése előtt minden szervezet meghatározza a források „kiválasztásának” kritériumait. A szervezet méretétől és célkitűzéseitől függően egy vagy több ilyen kritérium létezhet [19] [65] . Egyes webarchívumok, például az Internet Archívum célja, hogy az összes lehetséges weboldalt összegyűjtsék. Ezt a megközelítést nem szelektívnek vagy széleskörű letapogatásnak nevezik . A világháló összekapcsoltságának elvén alapul , miszerint egy témát csak úgy lehet igazán „megőrizni”, ha összegyűjtjük az összes létező weboldalt, hiszen ezek mind összefüggenek. Emellett a weboldal kiválasztása költséges és időigényes folyamat, amely szubjektív mintavételhez is vezethet [19] . Az "Archívum" megközelítést azonban a gyakorlatban megvalósíthatatlannak tartják - a szerzői jogi korlátozások miatt az összes oldal mentése lehetetlen, sőt az "Internet Archívum" is csak a nyilvánosság számára elérhető anyagokat menti el [66] .
A nem szelektív kiválasztási megközelítés alternatívája a szelektív megközelítés, vagy az erőforrások kiválasztása az előre meghatározott kritériumokhoz való tartozásuk alapján - tartomány (például .gov vagy .edu ), téma, esemény, médiatípus vagy műfaj [19] . A szelektív megközelítést gyakran széles körű vizsgálati gyakorlatokkal kombinálják – például ha egy szervezet az összes portált egy adott tartománynévvel archivál. Így 1996 óta a Svéd Nemzeti Könyvtár összegyűjti az összes „ .se ” tartományú webhelyet [19] [67] , a Great Britain Nemzeti Könyvtár pedig archiválja a „.gov.uk”, „.org” domainnel rendelkező webhelyeket. .uk” és „.co.uk”. A Goddard Űrrepülési Központ NASA könyvtára karbantartja az összes weboldalt a Központ domain nevével [19] . A szelektív archiválás fő előnye, hogy ezzel a megközelítéssel jobban kezelhető gyűjtemények hozhatók létre a kapcsolódó erőforrásokkal [19] .
Szelektív megközelítést alkalmaznak a tematikus gyűjtemények létrehozásához is. A DACHS például társadalmi és kulturális forrásokat gyűjt a sinológiáról, a Kongresszusi Könyvtár pedig az Internet Archívummal együttműködve webarchívumot állított össze az amerikai elnökválasztásról és a szeptember 11-i eseményekről . A British Library a "nemzeti kulturális értékkel bíró" weboldalakra specializálódott [67] . Az Ausztrál Nemzeti Könyvtár Pandora projektje [19] [54] is ezt a megközelítést alkalmazza . 2006-ban az Internet Archívum elindította az Archive It nevű web-alapú gyűjtőszolgáltatást [68] , amelyet gyakran használnak egyes szervezetek, például a National Museum of Women's Art [69] .
Egyes szervezetek a bemutatott forrás típusa alapján archiválják az erőforrásokat. A Goddard Space Flight Center könyvtár például elkerüli a nagy videofájlok és szoftvertermékek beolvasását. Éppen ellenkezőleg, más webprojektek archiválják a videókat a Youtube -on , vagy gyűjtenek blogokat, virtuális újságokat – például a Francia Nemzeti Könyvtár külön webgyűjteményt hozott létre a LiveJournals számára [54] .
Minél egyszerűbb és statikusabb az oldal, annál egyszerűbb az archiválása [70] - az adatok másolatai letöltésre kerülnek a webszerverről fájlokként, amelyek később más formátumba konvertálhatók [71] [72] [73] .
A weblapok keresőrobotokon keresztül történő automatikus gyűjtésének folyamatát webbegyűjtésnek vagy „szkennelésnek” nevezik. A robot kap egy URL-listát, amelyet követően HTTP kéréseket küld a webszervereknek, és "elfogja" a továbbított tartalmat és az összes hiperhivatkozást a szkennelt weboldalakról [73] . Az automatizált szoftver ezután WARC formátumba konvertálja az információkat, ami egy olyan fájlt eredményez, amely lejátszható olyan eszközökkel, mint a Wayback Machine [74] . Példák a bejárókra az Internet Archívum által 2004-ben kifejlesztett Heritrix [75] , valamint a HTTrack [76] és a Wget [77] . A „szkennerek” hálózata lehetővé teszi a szervezetek számára, hogy rendszeres időközönként, például naponta vagy évente másolatokat mentsenek a kiválasztott oldalakról [74] . A célzottabb archiváláshoz kisebb eszközöket használnak, mint például a HTTrack , amely lehetővé teszi a webhelyek másolatainak letöltését a helyi számítógépre [74] .
A dinamikus webhelyek archiválása sokkal nehezebb, mint a statikus webhelyek, mivel a tartalom, a szkriptek és a sablonok külön erőforrásokként vannak tárolva a webszerveren. az oldal megjelenése és tartalma pedig a kliens böngésző és szerver beállításaitól függően alakul. A statikus webhelyekkel ellentétben a HTTP kérés automatikus feldolgozása nem elegendő, mivel az oldal a szerver oldaláról generál tartalmat egy adatbázis segítségével [71] . Ezért az ilyen erőforrások megőrzése két lépésben történik - a webhely címtárstruktúrájában található fájladatok mentése és az adatbázis információinak archiválása [71] . A dinamikus oldalak esetében a keresőrobotok használatának vannak korlátai [19] . A dinamikus tartalom webes archiváló eszközei közé tartozik a svájci szövetségi levéltár által kifejlesztett Software Independent Archiving of Relational Databases (SIARD) és a Francia Nemzeti Könyvtár DeepArc . A SIARD automatikusan elemzi és megjeleníti a forrásadatbázis szerkezetét. Ezután a struktúrát szövegfájlként exportálja, amely az SQL , a relációs adatbázisok leírásának nemzetközi szabványa segítségével leírt adatdefiníciót tartalmazza . Ezt követően a tartalom egyszerű szöveges fájlként exportálódik, a metaadatok pedig XML - dokumentumként kerülnek mentésre [19] .
Az első közösségimédia-archiválási projektek 2008-tól kezdtek megjelenni szisztematikus széles platform vizsgálatként. Így az Új-Zélandi Nemzeti Könyvtár munkába állt a Twitteren közzétett üzenetek archívumának létrehozásán , a Francia Nemzeti Könyvtár pedig átvizsgálta a Facebookot . Az előállított tartalom nagy mennyisége, az információgyűjtés és -tárolás technikai szabványainak hiánya, valamint a portálok működésének folyamatosan változó technikai részletei miatt azonban a szervezetek ezt követően szelektíven kezdtek el hozzálátni a közösségi hálózatok webes archiválásához és mentéséhez. csak konkrét eseményekről vagy vészhelyzetekről szóló üzenetek. Az egyének, mint például a Bibliothèque Nationale de France vagy a Kanadai Nemzeti Könyvtár, folyamatosan automatizált gyűjteményt indítottak a hírekből és a közösségi médiából, hogy felfogják az emberek reakcióit az előre nem látható eseményekre. A kiválasztás adott hashtagek vagy kulcsszavak alapján történik , egy bizonyos időszakra vagy egy adott platformra [78] [79] .
A webhelyek összegyűjtésére különféle webes archiváló eszközöket használnak. A legelterjedtebb bejáró a Heritrix , egy általános célú webrobot, amely ingyenes szoftverlicenc alatt érhető el, a webarchiválást szem előtt tartva. A Heritrix a fájlokat WARC formátumban menti, és kiválóan alkalmas nagyszabású szkennelési műveletekre, de kevésbé valószínű, hogy „elfog” dinamikus webhelyeket vagy közösségi oldalakat. A Heritrix NetarchiveSuite alapján további szolgáltatásokat nyújt a hosszú távú tárolás és az anyagokhoz való hozzáférés terén [1] .
A Webrecorder a böngésző segítségével gyűjti össze a weboldalak tartalmát, ezzel megoldva más keresőrobotok gyakori problémáit – dinamikus tartalom rögzítése, Adobe Flash , multimédia . A program „rögzíti” a weblapokat, ahogy a felhasználó azokat böngészi, így kiválóan alkalmas szelektív szkennelésre. A tartalom WARC [1] formátumban is elmentésre kerül . Egy másik bejáró, a Brozzler [80] a Google Chrome böngészőmotort használja az oldalak gyűjtésére, és ugyanazokat az előnyöket kínálja, mint a Webrecorder, de nem igényel felhasználói beavatkozást a feltérképezés során [1] .
A HTTrack lehetővé teszi a webhelyek másolatainak letöltését a helyi számítógépre, majd a felhasználó böngészőn keresztül megtekintheti azokat [81] . A Wget és a hasonló Wpull eszköz sokoldalú parancssori eszközök, amelyek a HTTrackhez hasonló beépített webes feltérképezési funkciókkal rendelkeznek. A Wpull alkalmasabb nagyméretű archiválásra [1] .
A közösségi oldalak dinamikus szerkezete miatt archiválásukhoz speciális eszközökre van szükség. A webes archiválás általában a fejlesztők által biztosított alkalmazásprogramozási felületek vagy API -k segítségével történik . Az F(b)arc egy parancssori eszköz, amellyel a Facebook Graph felületén archiválhatunk adatokat. A Twarc egy parancssori eszköz és könyvtár, amely megkönnyíti a Twitter API-k használatát. A Social Feed Manager lehetővé teszi, hogy adatokat gyűjtsön a Twitter, a Tumblr , a Flickr és a Sina Weibo oldalakról [1] .
A leggyakrabban használt archiválási formátumok az ARC és a WARC . A legtöbb kezdeményezés Lucene -alapú megoldásokat használ a teljes szöveges keresés támogatására , beleértve a NutchWAX-ot vagy a Solr -t , a Wayback Machine -t az URL-keresés támogatására és az archivált tartalom megjelenítésére [11] . A JWAT , node-warc , WARCAT , warcio és warctools eszközök használhatók a WARC fájlok metaadatainak olvasására és kinyerésére [1] .
Az, hogy egy szervezet megfelel -e a robot-kivételi szabványnak , vagy engedélyt kér-e az archiválásra a webhelytulajdonosoktól, számos tényezőtől függ – a tartalom típusától, a webes archiválás mértékétől, a jogi környezettől [54] [1] . Azonban még az engedélykéréskor is csak a webhelytulajdonosok körülbelül 30-50%-a válaszol a kérelemre [82] .
Általánosságban elmondható, hogy a nyilvános iratok megőrzésére törvényes joggal rendelkező kormányzati szerveknek (például a National Archives and Records Administration (USA) és az Egyesült Királyság Nemzeti Levéltárának) nincs szükségük engedélyre a szkenneléshez. A 2006-os francia szerzői jogi törvény szerint a Francia Nemzeti Könyvtár figyelmen kívül hagyhatja a robotokat a nemzeti domainekkel rendelkező webhelyek feltérképezésekor [54] [1] . Más szervezetek, mint például az Internet Archívum is alkalmazzák munkájuk során az opt-out elvet – az adatok eltávolítása a gyűjteményből a szerzői jog jogosultjainak kérésére történik, akik a szerzői jogot az anyag leírásával, a pályázó elérhetőségei és aláírt nyilatkozat [83] [54] [25] .
A webarchívumok rendszerint hierarchikus felépítésűek – egy feltérképezési munkamenet számos webhelyet rögzít, amelyek mindegyike külön weboldalra vezet, amely video-, szöveg- és képfájlokat tartalmaz. Mindegyik „szinthez” metaadatok jönnek létre [54] [84] .
A metaadatok létrehozásának megközelítése a szervezet méretétől és erőforrásaitól függ. Például a nagy webarchívumok gyakran támaszkodnak az automatikus metaadatok generálására. Egyes metaadatokat, beleértve a gyűjtési időt, az állapotkódot (például a 404 -et a nem található vagy a 303-ast az átirányításhoz), a méretet bájtokban , az URI -t vagy a MIME -típust (például a szöveget/ HTML -t), a feltérképező robotok automatikusan „elfogják”. A HTML oldalak [54] [84] metacímkéiből is kinyerhető az információ .
A kis webarchívumok manuálisan is generálhatnak metaadatokat. A University of California, Los Angeles Literature Archive részletes feljegyzéseket használ, amelyeket a munkatársak a weboldalak gyűjtése és elemzése során készítettek a metaadatok létrehozásához [54] [85] . A Tajvani Nemzeti Egyetem webarchívumának háromszintű hierarchikus besorolása van. A metaadatok egyéni címkék, megjegyzések vagy értékelések segítségével is létrehozhatók [54] [85] [86] .
A felhasználók különféle okokból fordulnak a webarchívumokhoz – kutatás elvégzése, saját adatbázis összeállítása vagy az egyes webes erőforrások régebbi verzióinak megtekintése céljából. Az ilyen gyűjteményekhez való hozzáférést azonban gyakran nehezíti az általános keresés hiánya az elérhető adatbázisokban és a kényelmetlen felület. A tárolt információk elérése és feldolgozása gyakran speciális fájlformátumokkal kapcsolatos technikai ismereteket igényel [87] [61] [88] . Egyes kutatók úgy vélik, hogy ezen okok miatt a webarchívumokra mutató hivatkozások még mindig ritkán találhatók tudományos közleményekben, és a gyűjteményeket nem tanulmányozzák [89] [90] .
A webarchívum gyűjtemény hiányos vagy elfogult lehet a "zárt" oldalak archiválásának képtelensége és/vagy az archiválási stratégiák szakszerűtlen kidolgozása miatt – például amikor csak a nagy nyugati országok angol nyelvű portáljait archiválják. Bár néhány archívumnak törvényes joga van figyelmen kívül hagyni a robotkivételi szabványt , más szervezetek gyűjteményei jelentősen korlátozottak, ha megfelelnek a szabványnak [70] [91] [70] .
A webrobotok használatával végzett automatizált webarchiválás nagy mennyiségű információt rögzít [34] , azonban egyes interaktív JavaScript -elemek nem menthetők, és az archivált verzió elveszti funkcionalitását [70] [92] .