Wayback gép | |
---|---|
| |
URL | web.archive.org |
Webhely típusa | webarchívum |
nyelvek) | angol |
Programozási nyelv | Java , Python |
Tulajdonos | Internetes archívum |
A munka kezdete | 2001. október 24 |
Ország | |
Médiafájlok a Wikimedia Commons oldalon |
A Wayback Machine ( angolul - "Time Machine") az " Archive of the Internet " non-profit könyvtár ingyenes online archívuma . A keresőrobotok segítségével a Wayback Machine archiválja és nyilvánosan elérhetővé teszi a "nyílt" Internet [1] nagy részét . A szolgáltatás 1996-ban indult, de csak 2001-ben vált elérhetővé a nagyközönség számára. Fennállásának első 20 évében a Wayback Machine több mint 286 milliárd weboldal gyűjteményét katalogizálta és őrizte meg. Az archivált pillanatképek HTML -ben, JavaScript -ben és CSS -ben jelennek meg [2]. A Wayback Machine-be mentett dokumentumoknak köszönhetően a felhasználók nyomon követhetik a webhelyeken bekövetkező változásokat, és összehasonlíthatják a szerkesztések különböző verzióit [3] . 2022 júniusában a Wayback Machine több mint 689 milliárd mentett weboldalhoz biztosít hozzáférést [4] .
1989-ben Tim Berners-Lee angol tudós létrehozta a World Wide Web -et - egy olyan rendszert, amely lehetővé teszi az adatok átvitelét az internethez csatlakoztatott számítógépeken keresztül. A világháló elterjedésével azonban két fő probléma merült fel. Az első az összes adat tárolására alkalmas hely hiánya volt, ami miatt sok dokumentum és weboldal törölve lett. További probléma volt, hogy egy weboldal szerkesztése után (például jogi okokból) a felhasználók nem láthatták annak eredeti verzióját. Az Internet Archive, egy amerikai digitális könyvtár , egy non-profit szervezet, amelyet Brewster Cale és Bruce Galliat programozók hoztak létre 1996-ban, ezekre a hiányosságokra törekedett. Az Alexa Internettel ( az Amazon webindexelő leányvállalata ) együttműködve az "Archívum" kezdeményezte a meglévő webhelyek másolatainak létrehozását és tárolását, hogy "univerzális hozzáférést biztosítson a tudáshoz". A szervezet ingyenes nyilvános hozzáférést biztosított a digitalizált anyagokhoz, például weboldalakhoz, könyvekhez, hangfelvételekhez, köztük élő koncertekhez, videókhoz, képekhez és szoftverekhez. 2021-től az Internet Archívum székhelye San Franciscóban található, a Richmond körzetben található egykori keresztény egyházi épületben . A Kawl helyi rádió egyik újságírója 2019-ben összehasonlította az Archívum irodáját egy római templommal [5] [6] [7] . A szervezet célja, hogy megmentse az internetet a kihalástól [8] .
A Wayback Machine lett az Archívum leghíresebb projektje. Az online szolgáltatás az 1960-as évek The Rocky and Bullwinkle Show című animációs sorozatának időgépéről kapta a nevét . Hozzáférést biztosít több mint 550 milliárd weboldalt tartalmazó digitális gyűjteményhez [3] [9] [10] . A Wayback Machine projekt egy 404-es hiba problémájának megoldásaként készült , ami azt jelenti, hogy a szerver nem találja meg az adatokat a kért címen. Ennek oka az úgynevezett linkek kihalása – az egyszer publikált adatok egyre nagyobb elérhetetlensége. Például 1997-ben egy weboldal átlagos élettartama 44 nap volt. 2003-ban ez a szám 100 nap volt. A 2700 digitális forrás hivatkozásainak 2008-as elemzése, amelyek többségének nem volt nyomtatott megfelelője, azt mutatta, hogy a hivatkozások körülbelül 8 százaléka egy év után leállt. 2011-re, három év után, a gyűjtemény linkjeinek 30 százaléka megszakadt [11] . Az Alexával való integrációnak köszönhetően a hibaüzenetet észlelő felhasználó a böngészőbe beágyazott eszköztáron keresztül hozzáférhetett az oldal archivált verziójához. Ha a hozzáférhetetlen oldal másolata szerepel a Wayback Machine adatbázisában, akkor egy speciális gomb világít. Ugyanakkor a felhasználók engedélyt adhattak a böngészőnek a tevékenység megtekintésére és regisztrálására – ebben az esetben az összes meglátogatott oldal archiválásra került a portálon [12] .
A Wayback Machine 1996 májusában indult, de csak 2001-ben vált elérhetővé a nagyközönség számára – ezt megelőzően a digitális mágnesszalagokon rögzített összes információ csak korlátozott számú tudós és kutató számára volt hozzáférhető [13] . A „megnyitás” idejére az archívum több mint 10 milliárd archivált oldalt tartalmazott [3] . 2014 decemberéig a Wayback Machine arról számolt be, hogy világszerte 435 milliárd weboldalt mentett meg [1] . Technikailag a Wayback Machine szoftver nem archívum, hanem nyilvános interfész az összes adattár korlátozott részéhez [14] . Így a Wayback Machine nem tekinthető a szervezet gyűjteményének keresőmotorjának, mivel nem keres egy másik nagy virtuális könyvtár adatbázisában - az Open Library , amely lehetővé teszi a felhasználók számára a letöltött és archivált könyvek ingyenes digitális másolatainak elérését. a projekt [15] [16 ] .
A Wayback Machine elindításával az Internet Archívum az egyik legnépszerűbb és legismertebb online portál, valamint a vezető webarchiváló szolgáltatás [3] [8] lett . 1999-ben a The Archive megkezdte a gyűjtemény kiterjesztését az archív webes tartalmakon túlmenően, hogy mind a digitalizált, mind a natív digitális forrásoknak státuszt biztosítson, beleértve a könyveket, hanganyagokat, filmeket, képeket, dokumentumokat, szoftvereket és videojátékokat [6] . Egyes szkenneléseket az archívum saját keresőrobotjai, míg másokat partnerszervezetek végeznek. Egyedi adatbázisok beszerezhetők felhasználók adományaival és célzott beszerzéseivel [16] . A szervezet alapítói maguk hasonlították össze gyűjteményüket az Alexandriai Könyvtárral [6] . 2021-ben a Wayback Machine több mint 424 milliárd weboldalt tartalmazott [14] – többet, mint a Kongresszusi Könyvtárban [17] [6] [16] .
A Wayback Machine platform két fő elemen keresztül működik – keresőrobotokon (vagy webrobotokon) és egy felületen. A webrobotok meglátogatják, lekérik, letöltik és archiválják a weboldalakat. Viszont a felületen keresztül a felhasználók online gyűjteményekhez jutnak [2] .
Wayback gépgyűjtemény évenként | Archivált oldalak (milliárdokban) |
---|---|
2005 | 40 |
2008 | 85 |
2012 | 150 |
2013 | 373 |
2014 | 400 |
2015 | 452 |
2016 | 505 |
2020 | 514 |
2021 | 581 |
2022 | 689 |
Kezdetben az archívum gyűjteményt az Alexa Internet böngészőbővítménye egészítette ki , amely automatikusan rögzített és elmentett minden egyes weboldalt, amikor meglátogatták, majd az összes összegyűjtött információt átvitte az „Internet Archívum”-ba. A felhasználók telepíthetnek egy ingyenes eszköztárat is, amely lehetővé tette számukra a kiválasztott webhely archiválási állapotának ellenőrzését [16] .
2002-ben az Archívum elindította saját nyílt forráskódú keresőrobotját , a Heritrixet . A bejáró kódok a C és a Perl programozási nyelvek kombinációjával íródnak . Ezenkívül az Internet Archívum más donoroktól származó szkennelési adatokat is elfogad [6] . A webhelyek beszkennelt másolatai automatikusan körülbelül 100 MB-os fájlokká alakulnak, amelyeket aztán a szervereken tárolnak. Az archívum teljes feltöltési üteme körülbelül 10 terabájt havonta [19] .
A webrobotok a webhely azon verzióját rögzítik, ahogyan azt az URL-en keresztüli elérésekor elmentették. A robotok rendszeresen nagyszámú weboldalt térképeznek fel, rekurzív módon töltik le, értelmezik és jelenítik meg a HTML- , JavaScript- és CSS - oldalakat [2] . A bejáró mechanizmus hasonló a keresőmotorok munkájához - a robotok önállóan keresik a portálokat az archiváláshoz egy útvonalkeresőn keresztül, átvizsgálják az oldalakat és a kapcsolódó webhelyeket, így portálhálózatot alkotnak. Az Internet Archívum létrehozásának idején a világháló olyan kicsi volt, hogy a webrobotok egy munkamenetben be tudták járni az összes webhelyet. Idővel azonban az online portálok folyamatos növekedése és volatilitása szinte lehetetlenné tette a teljes hálózat teljes megkerülését. Így a Wayback Machine nem rögzít minden helyváltoztatást [8] . Az internetes archívum útmutató nem határozza meg, hogy a robotok hogyan találják meg és választják ki a feltérképezendő oldalakat, de kijelenti, hogy a bejárókat leggyakrabban azokra a webhelyekre irányítják, amelyek más portálokról vannak átirányítva, és nyilvánosak. A bejáró egy weblappal indul, majd az adott weboldalon lévő minden egyes hiperhivatkozást követve új webhelyekre lép. Minden új weboldalon a bejáró megismétli a folyamatot [14] . Addig folytatódik, amíg az archiválást le nem állítják, vagy el nem éri a szkript által beállított határt [20] . Ezenkívül minden felhasználó használhat egy speciális űrlapot a portálon, és meghívhatja a bejárót, amely az oldalt az aktuális állapotában menti [2] . A Wayback Machine csak nyilvános weboldalakat térképez fel, és nem tud hozzáférni a jelszóval védett vagy privát szerveren található tartalmakhoz [10] [14] [3] .
A Wayback Machine felületén a felhasználók két fő műveletet hajthatnak végre – hozzáférhetnek az oldal változásainak előzményeihez, és megtekinthetik a portálokon végzett összes szerkesztést. Az oldalak különböző verzióinak összehasonlító funkciója is elérhető [12] [21] [17] [22] . Ehhez egy speciális keresőmezőbe kell beírni az érdeklődő portál URL-címét, amely után a Wayback Machine kiadja az archiválási dátumok listáját. Egyes dátumok után egy csillag jelzi az oldalon talált változásokat. Az archivált oldal URL-címe a web.archive.org címmel kezdődik [23] [14] .
Az URL-eket bárki elmentheti archiválásra, ingyenes archív fiókkal pedig létrehozhat és archiválhat bármilyen kimenő vagy külső hivatkozást a kezdőlapon, és áttekintő jelentést kaphat [24] [24] .
2018-ban az Internet Archívum gyűjteménye több mint 40 petabájtnyi vagy 40 millió gigabájtnyi adatot tartalmazott, a Wayback Machine pedig az összes elérhető anyag körülbelül 63%-ához biztosított hozzáférést [25] . 2020 februárjában a Wayback Machine archívumának több mint 900 milliárd URL-je és több mint 400 milliárd weboldala volt [26] . 2021 júniusában a Wayback Machine több mint 581 milliárd mentett weboldalhoz biztosított hozzáférést [4] .
A Wayback Machine portált gyakran használják jogi területen – az ügyvédek polgári jogi igényekkel, büntetőügyekkel, közigazgatási eljárásokkal és szabadalmi eljárásokkal kapcsolatos információk keresésére használják a szolgáltatást. A Wayback Machine segítségével megszerzett webhelyek archív verziói felhasználhatók a szabadalmi jogi problémák megoldására vagy szankciók kiszabására az azóta az internetről eltávolított anyagok közzétételére [2] [12] . Annak ellenére, hogy az Internet Archívum gyűjteményét széles körben használják bizonyítékként, egyes amerikai bíróságok megtagadták a weboldalak képernyőképeinek elfogadását, arra hivatkozva, hogy az eredeti dokumentum és annak archivált változata azonosításának jogi nehézségei vannak [27] . 2018-ban az Egyesült Államok Második körzeti Fellebbviteli Bírósága úgy döntött, hogy a Wayback Machine archivált weboldalairól készült képernyőképek jogi bizonyítékok, amelyek felhasználhatók jogi eljárásokban; korábban hasonló döntést hozott az Egyesült Államok Harmadik Szövetségi Fellebbviteli Körének Fellebbviteli Bírósága [28] ; később az Egyesült Államok Hetedik körzeti Fellebbviteli Bírósága is úgy határozott, hogy a webarchívum képernyőképei elfogadható elektronikus bizonyítékok [29] .
A Wayback Machine-ben archivált cikkeknek köszönhetően a szerzők jogot szerezhetnek a megnyitásra vagy a közzétételre [30] . A szociológusok és történészek számára a Wayback Machine értékes nagyszabású adatforrást kínál a vállalati magatartás, az értékesítési stratégiák és a társadalmi gyakorlatok elemzéséhez [1] [31] . A Wayback Machine hozzáférést biztosít a nyílt hozzáférésű naplókhoz is . Így a 2000-es évek eleje óta 84 OA természettudományi és további mintegy 100 társadalom- és bölcsészettudományi folyóirat tűnt el az internetről [32] [33] [34] .
Aktivisták és kutatók a portált a Donald Trump elnökválasztás óta felerősödő félretájékoztatás elleni küzdelemre használják . Az elnöki adminisztráció egymásnak ellentmondó nyilatkozatainak megnövekedésére válaszul az Archívum külön gyűjteményt hozott létre Trump Archívum néven, amely az elnök televíziós megjelenéseit és tweetjeit tartalmazza . Az Archívum reméli, hogy tárháza segíteni fog másoknak a hamis információk azonosításában és a gyanús tartalom ellenőrzésében [35] [36] . Néhány esetben azonban egyes aktivisták azzal érveltek, hogy a Wayback Machine által archivált források éppen ellenkezőleg, hozzájárultak a téves információk terjedéséhez. Így a koronavírus-járvány kitörésekor az összeesküvés- elméletek hívei a portál által mentett képernyőképeket használták fel a koronavírussal kapcsolatos hamis információk terjesztésére [37] . Ellenintézkedésként 2020 novemberében az Archívum eszközöket vezetett be az információk hitelességének ellenőrzésére a Wayback Machine-ben. Ennek érdekében a non-profit szervezet különböző tényellenőrző cégekkel szövetkezett, hogy okokat adjon a felhasználóknak egy adott oldal eltávolítására a gyűjteményből. Egy webhely archivált verziójának megnyitásakor a Wayback Machine a képernyő tetején egy sárga szalag formájában tájékoztatja a felhasználókat a törlés okáról. Ha egy weboldalról felmerül a gyanú, hogy részt vesz egy félretájékoztatási kampányban, a Wayback Machine megadja az ellenőrzést végző szervezet adatait és a jelentésére mutató hivatkozást [38] .
Egyes esetekben a Wayback Machine segítségével szerzett információk jelentős botrányokban szerepeltek. Így a portál segítségével kiderült, hogy az Egyesült Államok Egészségügyi és Humánszolgáltatási Minisztériumának hivatalos képviselője, Michael Caputo rasszista és becsmérlő megjegyzéseket tett közzé a kínai népről egy sor már törölt tweetben [ 39] . Ezenkívül a Wayback Machine megőrzi a VKontakte közösségi hálózat " Igor Ivanovics Strelkov jelentései" című oldal törölt üzenetének másolatát a lezuhant An-26-os repülőgépről, amely a valóságban egy Boeing 777-es utas volt [40 ] [41] . 2021 májusában a Bellingcat felfedezte, hogy az Egyesült Államok hadserege Európában gyermekeknek szánt mobilmemória-alkalmazásokat használ minősített adatok tárolására. A helytelenül beállított adatvédelmi beállítások miatt más felhasználók érzékeny információkhoz jutottak hozzá. A szivárgás felfedezése után a katonaság eltávolította az összes kártyát, de azok a Wayback Machine-en maradtak [42] .
Az Internet Archívum nem kér engedélyt weboldalak másolására a távoli adatgyűjtés előtt, de kérésre eltávolítja az archivált anyagokat, vagy korlátozza a hozzáférést. Korábban a webhelyek tulajdonosai lehetőséget kaptak arra, hogy a szabványos robots.txt fájlon keresztül „leiratkozhassanak” az archiválásról , amely kizárja a webhelyeket vagy azok egyes oldalait, könyvtárait a webrobotok portáljainak listájáról [8] [43] . 2022-től a webhelyek vagy oldalaik archívumból való eltávolítására irányuló kérelmeket csak az eltávolítandó webhely adminisztrációjának közvetlen kérése után fogadunk el. Más adatok megőrzése miatt azonban az Internet Archívum jogilag kiszolgáltatott helyzetben van [44] . Például 2005-ben a Wayback Machine egy védjegyvitába keveredett a Healthcare Advocates és a Health Advocate között. Utóbbi a Wayback Machine segítségével hozzáfért a Healthcare Advocates 1999-ig visszanyúló weboldalaihoz, hogy olyan információkat találjon, amelyek alátámasztják az esetet. Válaszul a Healthcare Advocates beperelte a Health Advocate-ot és a The Archive-ot is, azt állítva, hogy az archívum megsértette a Digital Millennium Copyright Act- et . Ezt követően az ügyet peren kívül rendezték [45] .
2002-ben az Archívum eltávolította rendszeréből az Andreas Heldal-Lund egyházkritikus tulajdonában lévő Xenu.net portál archivált másolataira mutató hivatkozásokat. Az eltávolításra a Szcientológia Egyház jogászainak kérésére került sor , akik a webhelyen közzétett egyházi dokumentumok kivonatainak tulajdonjogát állították [46] [47] .
Kutatók és aktivisták bírálták a Wayback Machine-t és az Internet Archívumot, amiért megpróbálják megőrizni az összes online anyagot, amelyek nagy része csekély értékű. Egyes kutatók szerint ennek oka az 1990-es évek végén alapított Archívum elavult politikája – akkor, az internetes archívumok létrejöttének hajnalán úgy gondolták, hogy az internetes adatokat teljes egészében tárolni kell. Számos egynapos webhely létrehozásával azonban sok kutató és aktivista meggondolta magát [48] . Egyéb kritikák a szolgáltatás technikai korlátaira vonatkoznak – a Wayback Machine nem engedélyez bizonyos JavaScript-elemek tárolását és feldolgozását, valamint olyan archivált oldalakat is létrehozhat, amelyek hibás hivatkozásokat, hiányzó grafikákat vagy egyéb módon hiányosakat tartalmaznak [49] . A bejárók csak egy statikus pillanatképet rögzítenek a webhelyről – a Java vagy Flash alapú portálfunkciók nem működnek. Ez azt jelenti, hogy az eredeti weboldal funkcióinak nagy része elvész [8] .
2015-ben a Roszkomnadzor úgy döntött, hogy blokkolja a Wayback Machinet a „Maganyos dzsihád Oroszországban” szöveg egy oldalának másolására, amely „a gerillaellenállás elméletéről és gyakorlatáról” szóló információkat tartalmaz. Az Internet Archívum megfelelő oldala 2015. június 23-án felkerült az oroszországi tiltott webhelyek hivatalos nyilvántartásába, ami miatt egyes orosz internetszolgáltatók kénytelenek voltak teljesen blokkolni az Archívum webhelyét [50] [51] [52] . 2016-ban újra megnyílt a hozzáférés a Wayback Machine-hez, miután a tiltott videókat eltávolították a portálról [53] .
2019-ben az Internet Copyright Association (ACAPI) képviselői számos pert indítottak a Wayback Machine szolgáltatás ellen szerzői jogok megsértése miatt. Az AZAPI képviselői felkérték a Moszkvai Városi Bíróságot , hogy döntsön a portál végleges letiltásáról Oroszország területén, azonban 2020 augusztusában az Internet Archívum továbbra is folytatta munkáját [54] [55] [56] [57] .
2017-ben a portált blokkolták Indiában és Kirgizisztánban "szélsőséges anyagok" [58] [59] [60] tartalma miatt . 2021-től a webhely blokkolva van Kínában [61] .
2022 júniusában a moszkvai Taganszkij Kerületi Bíróság 800 000 rubel pénzbírsággal sújtotta az Internet Archívumot, mert nem távolította el a Molotov-koktél elkészítésének módjáról szóló videót a WayBack Machine-ből [62] .