Internetes archívum | |
---|---|
URL | archive.org |
Kereskedelmi | Nem |
Webhely típusa | egyetemes elektronikus könyvtár |
nyelvek) | angol |
Szerver helye |
Egyesült Államok Egyiptom Hollandia |
Tulajdonos | Internetes archívum |
Szerző | Brewster Cale [1] |
A munka kezdete | 1996. január 24 |
Jelenlegi állapot | művek |
forgalom | |
Alkalmazottak száma |
|
Címsor | egyetemes hozzáférés minden tudáshoz |
Ország | |
Médiafájlok a Wikimedia Commons oldalon |
Az Internet Archive (AI) ( Eng. Internet Archive ) egy non-profit szervezet , amelyet 1996-ban alapított San Franciscóban Brewster Cale amerikai programozó . Az Archívum fő kinyilvánított célja, hogy az Interneten felhalmozott információkhoz nyilvános hozzáférést biztosítson. Az AI gyűjtemény archivált webhelyek, digitalizált könyvek, hang- és videofájlok, játékok és szoftverek számos algyűjteményéből áll .
Az Archívum legnagyobb projektjei közé tartozik a 2001-ben elindított Wayback Machine , amely archiválja és hozzáférést biztosít a "nyílt" internet nagy részéhez. A Wayback Machine felhasználói nyomon követhetik a kiválasztott oldalakon végbemenő változásokat, és összehasonlíthatják a szerkesztések különböző verzióit [4] . Egy másik jelentős mesterséges intelligencia kezdeményezés az Open Library , egy nyílt online könyvtár, amelyen keresztül a felhasználók 2 hétre kölcsönözhetik a könyvek digitalizált változatát [5] . Az Archívum kezdeményezte az Archive It létrehozását is, egy webalapú archiválási szolgáltatást, amely segít a szervezeteknek és egyéneknek digitális tartalmak gyűjteményében, létrehozásában és megőrzésében. 2022. május elején az Internet Archívum gyűjteménye több mint 35 millió könyvből, 7,9 millió filmből, videóból és tévéműsorból, 842 ezer programból, 14 millió hangfájlból, 4 millió képből, 2,4 millió TV klipből , 237 ezer koncertből és több mint 682 milliárd weboldal a Wayback Machine -nél .
A hosszú távú adattároláshoz az "Archívum" a földrajzilag távoli helyeken elhelyezkedő tükörhelyek rendszerét használja [6] . A Wayback Machine példányai San Franciscóban , Richmondban , Alexandriában és Amszterdamban léteznek . A hatékony fájltárolás érdekében az "Archiválás" a fájlformátumot ( ARC ) használja, amely lehetővé teszi a fájlok veszteség nélküli mentését az archiválás során [6] .
Az MIT öregdiákja , Brewster Cale jelentős szerepet játszott az "Internet Archívum" létrehozásában . Tanulás közben Cale és osztálytársai hozzáfértek az internet prototípusához, az ARPANET -hez . Egy nap úgy döntöttek, hogy megnézik, mi történne, ha külön közösségeket (akkoriban kis levelezőlisták és Usenet csoportok ) helyeznének el egy közös virtuális térbe - egyetlen levelezőlistába. Ahogy a programozó később felidézte: "Káosz volt, anarchia és dezinformáció – szörnyű volt!" Cale azonban ekkor ismerte fel a hálózatban rejlő lehetőségeket, amelyek lehetővé teszik, hogy a különböző intézményekből származó emberek késedelem és súrlódás nélkül kommunikáljanak egymással. Az ARPANET-tel végzett kísérleteknek köszönhetően a programozónak az az ötlete támadt, hogy létrehozza az első digitális tárolót [7] .
Az 1980-as évektől Cale segített a Thinking Machines Corporation mini szuperszámítógép -vállalat megalapításában , 1989-ben pedig megalapította az első webalapú információ- visszakereső rendszert , a WAIS -t és egy azonos nevű céget, amelyet 1995-ben 15 dollárért eladott az America Online -nak. Ezt követően a WAIS a modern keresőmotorok prototípusa lett, és az egyik első program, amely nagy mennyiségű információt indexelt . Ezzel egy időben Brewster Bostonból San Franciscóba költözött , egy városba, amely ekkor még csak kezdett a Szilícium-völgy központjává válni [8] [9] [10] [11] .
Ebben az időszakban Cale érdeklődni kezdett a teljes Internet archiválása iránt. Ebből a célból 1996-ban két egymással összefüggő szervezetet hozott létre – az NPO Internet Archive-ot és az Alexa Internet kereskedelmi internetes archiváló rendszert , amelyet Bruce Gilliattal közösen hoztak létre, és az Alexandriai Könyvtárról nevezték el . Az Alexa Internetet egy nem kereskedelmi projekt finanszírozásával bízták meg a webarchiválásból származó bevételekből . Ezenkívül az Alexán keresztül archivált összes adatot is automatikusan menti a gyűjtemény. Az Alexa Internet projekt kezdeti befektetése körülbelül 1 millió dollár volt. Már egy évvel a létrehozás után az Internet Archive és az Alexa közösen fejlesztettek egy böngészőbővítményt – a program automatikusan azonosította és elmentette az "értékes" weboldalakat , és rangsorolták őket látogatások és keresztlinkek és kattintások száma [12] . Az oldalak létrehozásának és archiválásának ciklusa nyolc hét volt, majd a szkennelési folyamat újraindult. A böngészőbe épített Alexa eszköztár segítségével a felhasználók navigálhatnak az interneten, miközben katalogizálják azt, és metaadatokat gyűjtöttek az oldalak egymáshoz való viszonyáról. Eleinte mágnesszalagot használtak adattárolásra - annak ellenére, hogy az újonnan megjelent lemezes tárolók helytakarékosság és kényelem terén nyertek, a szalagok körülbelül 10-szer olcsóbbak voltak [13] [14] [15] [8] [12] .
Az Internet Archívum célja a hivatkozások kihalása elleni küzdelem volt – a létrehozott weboldalak többsége nem volt tartós. Az összes összegyűjtött adatot az Internet Archívum gyűjteményébe mentettük [12] [6] . Így az 1998-ban közzétett linkek 72%-a 2021-re "halottá" vált [16] [17] . A weboldalak másolatainak szkennelésének és karbantartásának fontosságának demonstrálására a The Archive közös projektet kezdeményezett a washingtoni Smithsonian Intézettel , hogy összegyűjtsék az összes 1996-os elnökjelölt webhely képernyőképét . Ezt követően ezek az adatok bekerültek a pártokról és jelöltekről szóló intézet archívumába, amely az Egyesült Államok politikai pártjairól és az összes elnökjelöltről gyűjt adatokat [ 12] [6] [6] .
1998-ban az Alexa Internet két év alatt 2 terabájtnyi archivált tartalmat, vagyis 500 000 webhelyet adományozott a Kongresszusi Könyvtárnak . Akkoriban Brewster Keil megemlítette, hogy reméli, hogy a Library of Congress és más kutatókönyvtárak ösztönzése lesz arra, hogy a tudást ne csak nyomtatott formában, hanem online is megőrizzék [18] [19] . 1998 és 1999 között az Internet Archive és az Alexa szerződést kötött a Microsofttal és a Netscape Communications -szel , hogy szoftvereiket beépítsék az Internet Explorer és a Netscape Navigator böngészőkbe . A megállapodások lehetővé tették az Archívum infrastruktúrájának jelentős bővítését - az Alexa az akkori személyi számítógépek 90% -án valósult meg. 1998 végére az Archívum vezetése úgy döntött, hogy mágnesszalagról merevlemezre vált [12] [20] . 1999-ben Bruce Cale ajánlatot kapott az Amazontól , hogy eladja neki a kereskedelmileg sikeres Alexa Internetet 250 millió dollárért, amibe az alkotó beleegyezett. A vásárlás után az Alexa továbbra is folytatta az adatok küldését az „Internet Archívum”-ba. Ugyanebben az évben Andy Jewel új webrobotot hozott létre, amely lehetővé teszi, hogy egyszerre több vizsgálatot hajtson végre, és az eredményeket ARC formátumba mentse . Ugyanebben az évben az NPO bemutatta a Jewell által fejlesztett új bejárót, amely lehetővé tette számukra, hogy ne csak weboldalakat gyűjtsenek, hanem más típusú adatokat is, például animációkat. A Prelinger Archives munkatársával, Rick Prelingerrel kötött partnerség révén 1000 film digitalizálására ( 160 000 dollár összértékben ) és TV híradások archiválására [12] [21] készült projekt . 2005-ben a Kongresszusi Könyvtár felvásárolta a Prelinger Archívumot , az anyagok még mindig az "Archívum"-on keresztül érhetők el [22] .
2000 és 2001 között az archívum mérete háromszorosára, körülbelül 40 terabájtra nőtt [12] . Ugyanakkor a vezetés szembesült az összegyűjtött gyűjteményhez való hozzáférés biztosításának kérdésével. Néhány adat elérhető volt a nagyközönség számára, de a Unix ismerete szükséges volt a felhasználótól . Az információkhoz való hozzáférés megnyitása érdekében az Alexa programozói létrehozták a Wayback Machine nevű online szolgáltatást, amelyen keresztül a felhasználók rákereshetnek a beírt URL -re. A szolgáltatás 2001. október 24-én indult, és több mint 10 milliárd archivált weboldalhoz és 100 TB adathoz kínált hozzáférést. Akkoriban az adatokat a FreeBSD és Linux operációs rendszereket futtató Hewlett-Packard és uslab.com szervereken tárolták . Mindegyik szerver körülbelül 512 MB RAM-mal és valamivel több mint 300 GB merevlemez-területtel rendelkezett [12] . 2014 decemberéig a Wayback Machine arról számolt be, hogy világszerte 435 milliárd weboldalt mentett meg [23] . Technikai szempontból a WM nem archívum, hanem nyilvános interfész az összes adattár korlátozott részéhez [24] [25] .
A 2000-es amerikai elnökválasztás kapcsán az Internet Archívum a Kongresszusi Könyvtárral közös projektet kezdeményezett a jelöltek politikai kampányaival kapcsolatos információk gyűjtésére [12] . Ennek az időszaknak egy másik nagy projektje a 9/11 archívum, amelyet 2001-ben az azonos nevű eseményeknek szenteltek . A Kongresszusi Könyvtárral együttműködve az Archívum több mint 30 000 kiválasztott webhelyről gyűjtött képeket 2001. december 1-ig, valamint több száz órányi televíziós közvetítést [12] [26] [27] .
2002-ben az "Archívum" egyszerre több nagy projektet hajtott végre, amelyek jelentősen bővítették gyűjteményét. Ezek közül az első és legnagyobb az alexandriai könyvtár tükörhelye volt . Összességében több mint 100 TB adatot tartalmazó szervereket küldtek Egyiptomba , összesen körülbelül 5 millió dollár értékben [12] . Az Internet Archívum emellett 1996 és 2001 között gyűjtött 10 milliárd weboldalt, 2000 órányi egyiptomi és amerikai tévéadást és 1000 régi filmet adományozott az Alexandrina Könyvtárnak [28] [29] .
2002 nyarán az Internet Archívum együttműködött a Carnegie Mellon Centerrel a Million Books Project (MBP) keretében, hogy több mint egymillió könyvet digitalizáljanak, és ingyenesen olvashatóvá tegyék őket az interneten 12] . A projekt más amerikai egyetemek és indiai , kínai és egyiptomi digitális gyűjtemények teljes részvételével valósult meg . A pénzt az MBP-re az Egyesült Államok Nemzeti Tudományos Alapítványa (3,63 millió dollár), India kormánya (25 millió) és a KNK oktatási minisztériuma (8,46 millió dollár) különítette el. Az Internet Archívum viszont biztosította a szükséges dokumentumok digitalizálásához szükséges eszközöket, személyzetet és pénzeszközöket. Ezt követően az összeállított gyűjtemény elérhetővé vált indiai, kínai tüköroldalakon, a Carnegie Mellon Egyetem portáljain és az Internet Archívumban [30] . 2004 decemberében az AI új együttműködést jelentett be több nemzetközi könyvtárral a digitalizált könyvek nyílt hozzáférésű archívumokban való elhelyezése érdekében [31] . Ennek az időszaknak a második nagy projektje a Bookbombil , egy mozgókönyvtár, amely tetszés szerint nyomtat az archív gyűjteményből. A könyvesmobil San Franciscó környékén mozgott, és a felhasználók kérésére percenként körülbelül 20 oldalt tudott nyomtatni, majd a projekt önkéntesei kézzel összegyűjtötték, borítóba helyezték és a felületre felvitt fűtőragasztóval bekötötték. a lapok gerincét. A könyv vágásához guillotine papírvágót [32] [12] használtak .
2003-ban az „Archívum” továbbra is együttműködött a nemzeti könyvtárakkal. Júliusban az AI részt vett az International Internet Preservation Consortium létrehozásában , amely 12 egyesült államokbeli nemzeti könyvtárból álló csoport, amely megállapodott abban, hogy összefognak szabványok, eszközök és gyakorlatok kidolgozásában a hozzáférhető tudás és információk megszerzésére, megőrzésére és létrehozására. az internet. A cél elérése érdekében a konzorcium a világ minden tájáról gyűjti össze az internetes tartalmakat oly módon, hogy azok archiválhatóak és védhetőek legyenek, és elősegíti a nemzeti könyvtárak fejlődését ösztönző közös eszközök, módszerek és módok kidolgozását és használatát. Ugyanebben az évben az Internet Archívum elindította a Heritrix , egy Java - alapú nyílt forráskódú webrobot , amelyet később számos intézmény átvett világszerte [12] [33] .
2004-ben az Internet Archívum megkezdte az adatok áttelepítését a harmadik generációs hardverre, a PetaBoxra . A PetaBox Linux operációs rendszeren alapul, és RAID tárhelyet biztosít körülbelül 2000 USD/ terabájt vagy 2 millió USD/ petabájton áron . Az első új berendezést az "Archívum" - EU webarchívum amszterdami fiókjában telepítették, amely az Európai Unió országaiban dokumentumokat gyűjt, és a fő gyűjtemény tükreként is szolgál [12] [33] [34 ] ] .
Az Internet Archívum célja, hogy egyetemes hozzáférést biztosítson minden emberi tudáshoz, és egy hatalmas internetes könyvtárrá váljon. 2007 júniusában Kalifornia állam az Internet Archívumot könyvtárnak jelölte ki, így elérhetővé tette szövetségi finanszírozás számára, és beépítette az információkhoz való nyílt hozzáférés megőrzésével foglalkozó szervezetek hálózatába [6] [35] .
A 2000-es évek elején az Archívum megvásárolt egy régi keresztény templomot San Franciscóban, és könyvtárrá alakította át [6] . 2009-ben a szervezet kevesebb mint öt alkalmazottat foglalkoztatott a telephelyek üzemeltetésében és karbantartásában [35] .
2012-re az archívum gyűjteménye 10 petabájtra nőtt, több mint 1,5 millió hangfájllal és több mint egymillió videóval nyilvánosan [36] . 2014-re az archívum napi 2-3 millió látogatót szolgált ki, és a gyűjtemény több mint 7 millió szöveget, 2,1 millió hangfelvételt és 1,8 millió videót tett ki [37] . Az Archívum 2016-ban ünnepelte fennállásának 20. évfordulóját. Ekkorra az archívum gyűjteményének 370 millió webhelye és 273 milliárd weboldala volt [38] .
2013-ban tűz ütött ki az Archívum irodájában, a berendezések egy része megsemmisült, de a gyűjtemény nem sérült meg [39] . Ugyanebben az évben, válaszul Edward Snowdennek a Nemzetbiztonsági Ügynökségről szóló kinyilatkoztatásaira , az Internet Archívum titkosítást vezetett be az olvasók webes forgalmára [40] .
Donald Trump 2016-os amerikai elnökválasztási győzelme után az Archívum úgy döntött, hogy Kanadában tárolja gyűjteményét arra az esetre, ha Trump a cenzúra vagy a rágalmazási törvények szigorítása mellett döntene – Brewster Cale blogjában arra kérte a támogatókat, hogy anyagilag segítsék a vásárlást. a szükséges felszerelést, mivel a költözés több millió dollárba fog kerülni [41] .
2019-ben a Google bejelentette, hogy hamarosan törli a bezárt Google+ közösségi hálózat adatait , azonban az Internet Archívum és az Archívum csapata megállapodást írt alá a nyilvános bejegyzések megőrzéséről a platformjaikon [42] – már csak az archiválás első négy hetében. 1,56 petabájtnyi adatot gyűjtöttek [43] .
2018-2019-ben az Archívum számos közös projektet hajtott végre a Wikipédiával . 2018-ban az Archívum az enciklopédia számos halott hivatkozását lecserélte azokkal, amelyeket a Wayback Machine-ben már archiváltak - egy speciális bot kiszámította a holt hivatkozásokat, majd az archivált másolatokra hivatkozva másolta és frissítette azokat. A projekt első évében 9 millió kapcsolatot állítottak helyre [44] . 2019-ben az Archívum egy projektet kezdeményezett a Wikipédia munkájának javítására – a portál előnézetet adott a cikkekben hivatkozott könyvekről. Ehhez a felhasználók a könyv címére kattintva egy kétoldalas anyagot láthatnak. A szolgáltatás fennállásának első évében az Archívum 130 000 enciklopédiás cikkben található hivatkozást 50 000 könyvre mutató közvetlen linkté alakított, amelyeket a szervezet beszkennelt és elérhetővé tett a nagyközönség számára. Végül az AI azt reméli, hogy a felhasználók megtekinthetik és kölcsönözhetik a Wikipédia által idézett összes könyvet [45] . Ahhoz, hogy a szolgáltatás helyesen ábrázolja a hivatkozott anyagot, az enciklopédia felhasználóinak helyesen kell formázniuk az idézetet, oldalszámok feltüntetésével [46] [47] .
2020-ban az Internet Archívum együttműködést indított a Brave -vel – immár a böngésző automatikusan észleli egy weboldal elérhetetlenségét, és cserébe biztonsági mentést kínál a Wayback Machine szolgáltatáson keresztül . A funkció a következő hibák esetén érhető el: 404 , 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 és 526 [48] . Ugyanebben az évben bejelentették az együttműködést a Cloudflare -rel , amely az Always On funkciót kínálja, amely a webhelyek statikus verzióit gyorsítótárazza . A partnerség lehetővé tette a Wayback Machine számára, hogy még több feltérképezhető webhelyet találjon [49] .
Az Internet Archívum aktívan támogatja a dezinformáció elleni küzdelmet . 2019-ben a szervezet a Public Knowledge , a Wikimedia Foundation , a Samuelson Law, Technology and Public Policy Clinic társaságokkal közösen konferenciát tartott, hogy megosszák tapasztalataikat a tudatosan hamis információk elleni küzdelem gyakorlatairól [50] . A COVID-19 világjárvány 2020 márciusi kezdete óta az összeesküvés-elméletek hívei a portál által mentett képernyőképeket használták fel a koronavírussal kapcsolatos hamis információk terjesztésére [51] . Például a Mediumban megjelent egy cikk, amely szerint Kínában 21 millió ember halt meg a COVID-19- ben. Miután ezt a cikket széles körben terjesztették a Facebookon , a közösségi hálózat blokkolta a linket. A cikket azonban megőrizték az "Archívumban", és a felhasználók elkezdték terjeszteni a Wayback Machinen [52] keresztül . Ellenintézkedésként 2020 novemberében az Internet Archive eszközöket vezetett be az információk hitelességének ellenőrzésére a Wayback Machine-ben. Egy webhely archivált verziójának megnyitásakor a Wayback Machine a képernyő tetején egy sárga szalag formájában tájékoztatja a felhasználókat a törlés okáról. Ha egy weboldalról felmerül a gyanú, hogy részt vesz egy dezinformációs kampányban, a Wayback Machine megadja az ellenőrzést végző szervezet adatait, valamint hivatkozást a jelentésére [53] [54] [55] . A tényellenőrző szolgáltatás lehetővé teszi a felhasználók számára, hogy jobban megértsék, miért távolítottak el vagy módosítottak bizonyos oldalakat az adott pillanatban. A Wayback Machine-hez benyújtott tényellenőrzésben közreműködők többek között a FactCheck.org , a PolitiFact , a Graphika, a Stanford Internet Observatory és mások. Az Internet Archívum kifejtette, hogy miért kellett tényellenőrzést hozzáadni ezekhez az oldalakhoz, és kijelentette: "Megpróbáljuk megőrizni digitális történelmünket, de felismerjük a különféle forrásokból származó hamis és félrevezető információkhoz való hozzáférés kihívásait" [56] .
Az 1990-es évek második felében a tárolási megoldások drágák voltak. A probléma megoldására az Internet Archívum mágnesszalagokat használt az infrastruktúra első generációjában. 2004-ben az Archívum kifejlesztett egy olcsó és hatékony tárolórendszert nagy mennyiségű adat tárolására - a PetaBox-ot, amely egy petabájt vagy egymillió gigabájt adat befogadására képes [6] [12] . A hosszú távú tároláshoz az "Archívum" a földrajzilag távoli helyeken található tükörhelyek rendszerét használja [6] . A Wayback Machine példányai San Franciscóban , Richmondban , Alexandriában és Amszterdamban léteznek . A fájlok ( ARC ) formátumban kerülnek mentésre. Minden ARC formátumú dokumentum körülbelül 100 MB méretű, és több, a szkennelés során kapott fájlt tartalmaz. Minden beágyazott elem metaadatokat tartalmaz a fájlról és a keresésről: a fájl nevét (URL-jét), méretét, tartalomtípusát, a kibontás dátumát és időpontját, valamint az azt átvevő szervezet nevét [6] . Költségi okokból az "Archívum" ATA -lemezeken tárolja az adatokat egy pizzadobozban , amelyen négy lemez található, amelyek közül az egyik egy Linux OS rendszerindító lemez, a másik pedig a JBOD alatt konfigurált adatokat tárolja . Minden rack 40 tároló csomóponttal rendelkezik. A 2000-es évek végén csak a San Francisco-i klaszter körülbelül 36 állványt tartalmazott [57] [58] .
Az Archívum gyűjtemény számos algyűjteményből áll, amelyeket különböző szervezetek hoztak létre, és mindegyik más-más megközelítést alkalmaz a webes archiváláshoz. Az adatok egy részét közvetlenül az Archívum, míg másokat a szervezet számos partnere kezel [59] . A kezdeti években az Alexa internetes webrobot volt a rendszeres adatok fő forrása . A feldolgozott forgalom növekedésével azonban az NPO vezetése ráébredt egy nagyszabású és könnyen testreszabható keresőrobot bevezetésére. De a piacon létező programok nem rendelkeztek elegendő erővel és képességekkel az internet széles és mély szkenneléséhez. Az alapvető szempont a szoftver nyitottsága volt , amely elősegíti az internet archiválásában érdekelt intézmények közötti együttműködés fejlődését. 2003 első felében az Archívum megkezdte a Heritrix nevű új, nyílt forráskódú bejáró fejlesztését . A bejáró Java nyelven készült, és a Nemzetközi Internet Megőrző Konzorcium és más partnerkönyvtárak és intézmények fejlesztették ki. Ugyanazok a követelmények vonatkoztak a Heritrixre, mint az Alexa internetes bejáróra - a robotnak be kell tartania az oldal robots.txt fájljában található összes feltérképezési utasítást, és kerülnie kell az agresszív archiválást, amely akadályozhatja a portál működését. Ezenkívül a szkenner által rögzített összes fájlt nagyobb fájlokká kell kombinálni a könnyebb kezelés és hozzáférés érdekében. A bejáró megkezdi az oldalak rögzítését a már ismert URL-ekről, majd követi az egyes webhelyeken belüli hivatkozásokat [6] [33] . A robot elemzi és követi a beágyazott hivatkozásokat, majd az összes URL-t hozzáadja a kibontandó fájlok listájához. Ezután megismétli ezt a folyamatot a következő hivatkozásokkal, és ellenőrzi, hogy az összes mentett webhelyet „elfogták-e” [6] . A Heritrix számos korláttal rendelkezik – nem tudja átvizsgálni a mélywebeket , illetve az adatbázisokban vagy oldalakban található anyagokat, amelyek eléréséhez hitelesítés szükséges. A robot nem térképezi fel a jelszóval védett webhelyeket, és engedelmeskedik a robot.txt fájlban leírt kivételeknek. Emellett a szkennelés nagy nehézségek árán dolgoz fel JavaScript elemeket , streaming médiát , képtérképeket [60] .
Az Alexa Internet saját algoritmusait használja az internet átvizsgálására, leggyakrabban a látogatási statisztikák és a rájuk vezető linkek száma alapján elemzi az oldalakat. Ezért, ha a felhasználók külön akarják menteni saját webhelyüket, akkor az oldalt az Alexába beágyazott speciális eszköztáron keresztül menthetik. 2010 óta az "Internet Archívum" Worldwide Web Crawlingot hajt végre a globális hálózaton keresztül, webelemeket, oldalakat, webhelyeket és webhelyrészeket gyűjtve az internet minden részéről. 2011 márciusa és decembere között a Worldwide Web Crawling 2,7 milliárd pillanatképet és 2,3 milliárd egyedi URL-t készített 29 millió webhelyről [59] . Minden feltérképezés konkrét URL-ek listájával kezdődik, amelyeket "forráslistáknak" neveznek, és egy külön algoritmust is követ, amely meghatározza a feltérképezés mélységét. A legtöbb webhelyet csak egy fogja eltéríteni, azonban az egyes portálok (például híroldalak) gyakrabban archiválhatók más feltérképezések révén [59] .
2013-ban az Internet Archívum a Wikipédiával és a WordPress -szel közösen elindította az Archive No More 404 programot, amely folyamatosan figyeli a portálokon az elhalt hivatkozásokat. Ezt követően GDELT [61] csatlakozott a programhoz . Ennek a projektnek a részeként 2016-ban az Archívum a Mozilla Firefox -szal közösen létrehozott egy bővítményt, amely lehetővé teszi a felhasználók számára, hogy megtekintsék a "halott" oldalakat, ha azokat archiválták [62] . Ezek az együttműködések nagymértékben bővítették a gyűjteményt az aktuális eseményekről szóló cikkekkel és anyagokkal. Az archívum az Alfred Sloan Foundation és az Alexa, NARA és Internet Memory Foundation által szkennelt weboldalak adatait is tárolja , amelyek 2013 óta több mint 2,5 milliárd rekordot tartalmaznak . Ezenkívül sok speciális archívum elmenti oldalaik végső képernyőképeit az Internet Archívum gyűjteményébe. Ilyen például a GeoCities és a Wretch [59] .
A feltérképezések irányulhatnak a webhely egyszeri "rögzítésére", hogy biztosítsák a portál legalább egy példányának megőrzését, vagy megtervezhetők úgy, hogy rendszeresen, rendszeres időközönként átvizsgálják a manuálisan kiválasztott webhelyek egy kis részét. - a szkennelés gyakorisága közvetlenül függ az oldal népszerűségétől [59] .
A Wayback Machine egy ingyenes online szolgáltatás, amely hozzáférést biztosít az Internet Archívum webarchívumához. A szolgáltatás csak 2001-ben vált elérhetővé a nyilvánosság számára. Fennállásának első 20 évében a Wayback Machine több mint 286 milliárd webhelyből álló gyűjteményt katalogizált és őriz meg. Az archív pillanatképek támogatják a HTML , JavaScript és CSS oldalakat [63] . A Wayback Machine segítségével a felhasználók nyomon követhetik a webhely változásait, és összehasonlíthatják a szerkesztések különböző verzióit [64] . 2022 májusáig a Wayback Machine több mint 682 milliárd mentett weboldalhoz biztosított hozzáférést [4] [65] . 2017-ben az Internet Archívum bemutatta a Wayback Machine modernizált változatát [66] . Technikailag a Wayback Machine szoftver nem archívum, hanem nyilvános interfész az összes adattár egy korlátozott részéhez [24] . A platformot webrobotok és felhasználók üzemeltetik, akik saját webhelyeiket [63] [67] [68] [69] [70] adják hozzá az érdeklődési körébe tartozó portál URL-jének megadásával [71] [24] [35] [72] .
Bárki mentheti az URL-eket archiválásra, ingyenes archív fiókkal pedig létrehozhat és archiválhat bármilyen kimenő vagy külső hivatkozást az eredeti oldalon [73] [73] . Egy 2014-es tanulmány szerint az Archívum felhasználóinak többsége a Wayback Machine-t keresi, hogy olyan angol nyelvű anyagokat keressen, amelyeket nem talál az internet „élő” szegmensében [74] .
2006-ban az Archívum bevezette az Archive It nevű szolgáltatást, amely egy webalapú archiválási szolgáltatás, amely segít a szervezeteknek és egyéneknek saját digitális adatgyűjteményeik összegyűjtésében, létrehozásában és tárolásában. Archívum Ez biztosítja a webhelyek feltérképezését, az adatok rendszerezését és kezelését, a feltérképezés figyeléséhez szükséges technikai jelentéseket, a webhely metaadatainak bevitelére szolgáló felületet és a teljes szöveges keresést . A szolgáltatást a Heritrix [60] [75] nyílt forráskódú szoftver működteti .
Minden tartalom az Internet Archívum adatközpontjaiban található. Több mint 200 történelem, kultúra, tudomány, emberi jogok és más társadalmilag fontos témákhoz kapcsolódó gyűjtemény áll a felhasználók rendelkezésére [65] [75] [59] .
Emberi Jogi Web ArchívumA Human Rights Web Archive (HRWA) több mint 600 nem kormányzati szervezet, nemzeti emberi jogi intézmény és blog archivált webhelyeinek gyűjteménye, amelyek valamilyen módon foglalkoznak az emberi jogokkal . A HRWA-t különböző nem kormányzati szervezetek, nemzeti emberi jogi intézmények és magánszemélyek hozták létre. A HRWA létrehozását a Columbia Egyetem könyvtárai és információs szolgálatai, valamint az Emberi Jogok Dokumentációs és Kutatási Központja (CHRDR) vezették az Andrew W. Mellon Alapítvány . Az adatgyűjtés 2008-ban kezdődött, a világ minden tájáról származó emberi jogi szakértők azonosították a szükséges portálokat. 2022-től a gyűjtemény rendszeresen frissül. Az összeállításban nem szerepeltek olyan kormányközi szervezetek honlapjai, mint az ENSZ . A gyűjtemény több mint 711 webhelyet tartalmaz, amelyek közül több mint 50 millió kereshető [65] . Az adatgyűjtés egy kísérleti projekttel kezdődött 2008-ban, a webhelyeket negyedévente térképezték fel az Archive It szolgáltatás [76] segítségével . A gyűjtemények másolatait az Internet Archívumban és a Columbia Egyetem Könyvtárában őrzik. 2022-ben a HRWA több mint ezer oldalt és 50 millió dokumentumot tartalmazott [65] [77] .
Vegye át a Wall Streetet2011-ben, New Yorkban az „ Occupy Wall Street ” elnevezésű, társadalmi és gazdasági egyenlőséget szorgalmazó tüntetéssorozat kezdete óta az Archive It csapat tagjai és az online közösség tagjai önkéntesen azonosították és rögzítették a mozgalommal kapcsolatos összes erőforrást. . A gyűjtemény weboldalakat, blogokat, közösségi portálokat és a hagyományos vagy alternatív médiából származó híreket tartalmaz [65] . A New Yorkon kívüli tiltakozásokról szóló információkat a George Mason Egyetem Roy Rosenzweig Történeti és Új Média Központja gyűjtötte [78] [79] [80] .
Az összes szöveg száma (2022. május 17.) |
34 739 370 [81] |
---|
Nyelv | Szövegek száma |
---|---|
angol | 25 779 040 |
Francia | 740 679 |
Deutsch | 727 010 |
holland | 722 451 |
kínai | 568 727 |
arab | 475 878 |
olasz | 396 364 |
spanyol | 311 750 |
japán | 154 282 |
görög | 144 773 |
latin | 136 532 |
urdu | 98 953 |
orosz | 76 979 |
portugál | 71 961 |
Az Archívum 2005-ben kezdeményezte az Open Content Alliance (OSA) létrehozását, amely a könyvtári gyűjtemények digitalizálásában és közkincsbe helyezésében közösen foglalkozó szervezetek és cégek konzorciuma. Az Internet Archívum mellett a Yahoo , a University of California, a University of Toronto , a National Archives of Great Britain és mások vettek részt a projektben [82] . A Microsoft [83] is tagja volt az OCA -nak, de 2008-ban a cég bejelentette, hogy csökkenti a könyvek digitalizálására irányuló projektbe való befektetését. Ezzel a Microsoft feloldott minden szerződéses korlátozást a köztulajdonban lévő könyvekre vonatkozóan, és lehetővé tette, hogy az Archívum megtartsa az összes szükséges hardvert [84] [85] . A Microsoft döntése arra kényszerítette az Archívumot, hogy új finanszírozási források után nézzen [86] .
2022 májusáig az Archívum több mint 35 000 000 nyílt hozzáférésű könyvet és szöveget kínált. Emellett 2,3 millió modern e-könyvből álló gyűjtemény is elérhető minden regisztrált felhasználó számára [5] . A felhasználók kereshetnek tartalom, médiatípus, év, téma és téma szerint. A könyvszakasz főoldalán a gyűjtemények is megjelennek nézetek, cím, megjelenési dátum és szerző szerint rendezve. Az Archívum több mint 1100 könyvtári intézménnyel társult a könyvgyűjtemény létrehozása érdekében, mint például a Boston Public Library , a Library of Congress és mások. A partnerség során különféle típusú médiákat digitalizáltak, köztük mikrofilmeket, magazinokat és sorozatos kiadványokat, főleg angol, holland , német , francia , arab , olasz nyelven . Naponta körülbelül 3500 könyvet szkenneltek be a világ 18 pontján. A több mint 95 éve megjelent könyvek letölthetők [87] . Ez a digitális terjesztési mechanizmus ugyanazokat a biztonsági technológiákat használja, amelyeket a kiadók a kereskedelmi vállalatok, például az OverDrive, Inc. által terjesztett nyomtatott e-könyveikhez használnak. és a Google Könyvek [88] .
Az Internet Archívum online könyvtárként működik, és digitális másolatokat ad ki a felhasználóknak, feltéve, hogy egy könyvből egyszerre legfeljebb egy digitális példány van forgalomban [25] . 2006- ban indult az Open Library , egy online szolgáltatás, amely lehetővé teszi a felhasználók számára, hogy a könyvek elektronikus másolatait olvassák a „ ellenőrzött digitális kölcsönzés ” (vagy CDL) szerint, amely korlátozza egyetlen beolvasott kép egyidejű kölcsönzésének számát. Az Internet Archívum megkerüli az engedélyezési korlátozások hagyományos formáit – a másolatokat fizikai másolatokból veszik, nem pedig digitálisan vásárolják meg, így a projekt soha nem köt licencszerződést kiadóval [89] .
Szövegek száma évtizedenként
|
|
|
Hangfájlok száma (2022. május 17.) |
14 099 859 [91] |
---|
Képek száma (2022. május 17.) |
4 301 137 [92] |
---|
Videofájlok száma (2022. május 17.) |
7 930 236 [93] |
---|
2017-ben a The Archive elindította a The Great 78 Projectet, amelynek célja több ezer 78 - as fordulatszámú bakelitlemez megőrzése volt, amelyek egy része az 1900-as évek elején készült. Az "Archívum" mellett az ARCHive of Contemporary Music és a George Blood Audio is részt vesz a projektben. A Great 78 Project célja, hogy naponta körülbelül ezer régi lejátszóból származó rekordot keressen, tisztítson meg, digitalizáljon és archiváljon [94] . Ehhez minden lemezt megtisztítanak egy speciális gépen, amely desztillált vizet permetez a felületére . Ezt követően egy kis porszívó felszívja a vizet az évek során a lemezeken felhalmozódott szennyeződésekkel együtt. Ezután lefényképezik a lemezeket, és ezek alapján címkéket készítenek, amelyeket az archívum általános adatbázisába kell felvenni. A feldolgozott felvételek többsége olyan nagy lemezcégekhez tartozik, mint a Columbia Records , az RCA Records és a Capitol Studios , de körülbelül 1700 másik kiadó is szerepel a gyűjteményben [95] . Csak a működés első évében mintegy 50 000 digitalizált lemezt helyeztek el. Az Internet Archívum projekt több mint 200 000 fizikai irat digitalizálását tervezi, amelyek többsége az 1950-es évekből és korábbról származik [96] .
Az Internet Archívum hanggyűjteményének jelentős része a Live Music Archive, amely több mint 220 000 veszteségmentesen tömörített élő felvételt tartalmaz . A gyűjtemény egy része az etree zenei közösségtől származik , amely élő koncertek felvételeit terjeszti [97] . Az "Archívum" különböző művészek élő fellépéseinek felvételeit tartalmazza, köztük a Grateful Dead , John Meyer , Elliott Smith , a The Smashing Pumpkins [98] .
2022-ben az Archívum fotógyűjteménye 4,3 millió képből állt [99] . Az egyik legnagyobb algyűjteményt 2007 óta szerzik be a NASA -val együttműködésben . A szervezetek közösen szkennelték és archiválták az ügynökség archívumából származó fényképeket, történelmi filmeket és videókat. Ennek a partnerségnek köszönhetően a gyűjtemények elérhetők a NASA képeinek egységes archívumában az Archívum honlapján [100] .
2014-ben a George Washington Egyetem kutatója, Kalev Leetaru 2,6 millió fotót töltött fel nyilvánosan elérhető könyvekből az archívumból. Ezt követően az összes képet hozzáadta a Flickr szolgáltatáshoz , és előre címkéket adott hozzá az összes képhez, hogy a felhasználók kereshessenek az anyagok között [101] .
Az archívum videógyűjteménye számos algyűjteményből áll, köztük több mint 3 millió órányi rögzített TV híradásból [38] . A News Recording and Preservation Project a Philly Political Media Watch Project kezdeményezésére jött létre, amely a Sunlight Foundation , a Philadelphia City Council , a Pennsylvaniai Egyetem Linguistic Data Consortium és a University of Delaware Community Research által létrehozott programja. és szervizközpont . A projektnek köszönhetően több százezer híradás és elmentett politikai hirdetés érhető el az Archívum honlapján [37] .
2019-ben az Archívum 2,5 ezer régi, DOS rendszerre írt játékkal bővítette gyűjteményét . Ez az eXoDOS projekt eredményeként történt, amelyben a régi játékokat elemezték és optimalizálták a modern számítógépeken való futtatásra [102] . 2021-ben az Adobe bejelentette, hogy a Flash Player megszűnik . Válaszul az Archívum több száz játékból és flash-animációból álló gyűjteményt tett közzé az oldalon [103] [104] .
2016-ban az Internet Archívum egy nagy programgyűjteményt tett közzé a Windows 3.x operációs rendszercsaládhoz . Összességében a Windows 3.x Showcase rész 1523 programot tartalmaz, ami a beépített Windows 3.1 JavaScript emulátornak köszönhetően működik. Emellett a gyűjtemény programokat, játékokat és a Windows 95 demóverzióját is tartalmazza . A szerzői joggal védett fájlokhoz az Archívum munkatársai ingyenes analógokat tettek közzé [105] .
Az Archívum vezetése annak érdekében, hogy az Open Library szolgáltatáson keresztül hozzáférést biztosítson a könyvművekhez, a Controlled Digital Lending (CDL) – a szerzői jogi törvény értelmezése – elveit követi , amely szerint a könyvtárak ugyanazon az elven kölcsönözhetnek digitalizált nyomtatott könyveket. nyomtatottként - a kiadott digitális címek számának meg kell egyeznie a könyvtár tulajdonában lévő példányokkal. Az Archívum a gyűjteményében lévő összes könyvet beszerzi, akár nyomtatott, akár elektronikus formában. Ezután beszkenneli őket, hogy létrehozza saját digitális fájljait, amelyeket aztán elérhetővé tesz az olvasók számára. Ezért a projekt soha nem köt licencszerződést a kiadóval. Minden kiadott online fájl rendelkezik beágyazott kóddal, melynek köszönhetően elektronikus soron keresztül csak egy felhasználó férhet hozzá a műhöz. Ez a modell lehetővé teszi a könyvtárak számára, hogy könyveiket digitálisan is elérhetővé tegyék, de azt is lehetővé teszi a kiadók és a bővítmények szerzői számára, hogy az eladások elvesztése nélkül kapjanak pénzt munkájukért. Amikor egy nyomtatott könyvtári könyv nagyon népszerű, a könyvtárak általában több példányt vásárolnak. Az olvasóknak nincs joguk anyagok másolására vagy terjesztésére. Ily módon a CDL-rendszer lehetővé teszi a szerzői jogi törvényben [106] [89] [107] meghatározott korlátozások egy részének megkerülését .
Az „Archívum” a szerzői jogok tulajdonosainak kérésére eltávolítja az adatokat a Wayback Machine-ről, akik igazolni tudják a szerzői jogot, megadják az anyag leírását, a kérelmező elérhetőségeit és aláírt nyilatkozatot [108] [25] .
Az Internet Archívum tevékenysége világszerte jelentős hatást gyakorolt a webes archiválási gyakorlatok fejlődésére. A mesterséges intelligencia példáját követve számos nagyszabású webarchiváló program és portál jött létre, gyakran nemzetiek. A nagy nemzetközi könyvtárak az elsők között tároltak online tartalmat – a Kongresszusi Könyvtár , az Ausztrál Nemzeti Könyvtár , a Svéd Nemzeti Könyvtár , a Norvég Nemzeti Könyvtár és az Új-Zélandi Nemzeti Könyvtár [109] . 2013-ban elindult az EU webarchívum projektje az Európai Unió weboldalainak szkennelésére és archiválására annak érdekében, hogy az európai webes tartalmat hosszú távon és nyilvánosan megőrizzék [34] . 2000-ben a Cseh Köztársaság kezdeményezte a Webarchiv projektet a nemzeti oldalak internetes archiválására [110] . Később hasonló kezdeményezéseket hajtottak végre Horvátországban [109] , Magyarországon [111] , Írországban [112] , Belgiumban és más országokban [113] . A legtöbb esetben az archiválást az "Archívum" által létrehozott Heritrix [6] webrobot végezte . Az Internet Archívum számos olyan technológiát is biztosít, amelyet más intézmények használnak archiváló alkalmazások létrehozásához [6] .
Az archívum gyűjteményeit gyakran használják különböző tudományterületek kutatói. Így az adatokat elemzik a nyelvi és társadalmi gyakorlatok [114] , a vállalati magatartás, az értékesítési stratégiák változásaira [23] [115] . Emellett a tudósok az archivált anyagokat felhasználhatják megnyitási vagy publikálási joguk megállapítására [116] , valamint nyílt hozzáférésű folyóiratokhoz való hozzáféréshez – a 2020-as kutatás szerint 84 természettudományi OA folyóirat tűnt el az internetről azóta. a 2000-es évek elején, és több mint 100 - a szociális és humanitárius [117] [118] [119] .
2002-ben a Szcientológia Egyház jogászai azt követelték az Internet Archívumtól, hogy távolítsa el a Wayback Machine-ből az Andreas Heldal-Lund egyházkritikus tulajdonában lévő Xenu.net portál archivált másolatait. Ennek oka az volt, hogy a Heldala-Lundu portálon kivonatok jelennek meg az egyház dokumentumaiból. Az "Archívum" azonban válaszul nem csak az oldal kivonatos oldalait távolította el, hanem a teljes Xenu.net portálhoz való hozzáférést is. Az Archívum döntése hatalmas nyilvános vitát váltott ki az etikáról és a szólásszabadságról [120] [121] .
2020-ban a COVID-19 világjárvány és sok ember kényszer-elszigetelődése miatt az Archívum elindította az Országos Sürgősségi Könyvtár ideiglenes szolgáltatását, amely 1,4 millió könyv másolatát bocsátja a nyilvánosság rendelkezésére azok számára, akik nem tudtak bejutni a könyvtárakba. Az Open Library szolgáltatás hagyományos működésétől eltérően a Library felhasználói vészhelyzet esetén sorban állás nélkül kölcsönözhettek szövegeket [122] . Válaszul az Amerikai Szerzők Egyesülete, a Authors Guild nyílt levelet adott ki, amelyben „tényleges lopással” vádolták a szervezetet [123] – a projekt megsértette a CDL számos rendelkezését azzal, hogy egynél több felhasználó számára biztosított hozzáférést szövegek. Az Internet Archívum megsértésére válaszul négy kereskedelmi kiadó - Hachette , Penguin Random House , Wiley - pert indított, amelyben kalózkodással vádolták a portált [124] . Emiatt az Internet Archívum a tervezettnél korábban, június 30-a helyett 2020. június 16-án fejezte be programját [125] [126] [25] [106] . A per célja az volt, hogy megakadályozzák, hogy az Open Library olyan rendszerként működjön, amely szerzői joggal védett műveket digitalizál és kölcsönöz [25] [89] . Az ügy tárgyalását 2021 novemberére tűzték ki [127] .
FÁK országok2014-ben a Roszkomnadzor felvette az internetes archívumot a betiltott oldalak nyilvántartásába, mert ott volt az Iszlám Állam által kiadott Kardok összecsapása című dokumentumfilm kópiája [128] . Egy évvel később az Orosz Föderáció Ügyészsége határozatot hozott az Internet Archívum weboldalának blokkolására az információs, információs technológiákról és információvédelemről szóló törvény 15.3. cikke alapján. A portál blokkolásának oka a "Maganyos dzsihád Oroszországban" című archivált cikk volt, amely az ügyészség szerint tömeges zavargásokra és szélsőséges tevékenységekre szólított fel [129] [130] . Miután az erőforrás eltávolított minden Oroszországban betiltott oldalakra mutató hivatkozást, helyreállt a hozzáférés a portálhoz [131] .
2015-ben az Internet Archívum portál felkerült a Kazahsztánban blokkolt nem kívánt oldalak listájára [132] .
2017. június 6-án a biskeki Oktyabrsky Bíróság letiltotta az oldalt Kirgizisztánban „szélsőséges tartalmú” anyagok miatt [133] .
2019-ben az Internetes Szerzői Jogvédő Szövetség (AZAPI) az "Internet Archívum" oroszországi blokkolását szorgalmazta. Ennek oka az volt, hogy a gyűjteményben jelen voltak az orosz írók - Dmitrij Glukhovszkij és Daria Dontsova - hangoskönyveinek másolatai . Az ügyben a keresetet 2019. március 13-án nyújtották be, a Moszkvai Városi Bíróság tárgyalására 2019. május 13-án került sor sürgősségi alapon. Egy bírósági döntés értelmében az Internet Archívumnak megtiltották a hangoskönyvek elhelyezésének technikai feltételeinek megteremtését [134] .
2022. május 12-én a Roszkomnadzor keresetet nyújtott be az Internet Archívum ellen az Orosz Föderáció közigazgatási szabálysértési kódexének 13.41 cikkelye alapján („Az Orosz Föderációban tiltottnak elismert információk törlésének elmulasztása”) [135] [136] . Az ok egy, a szolgáltatás által archivált videó volt, amely bemutatta, hogyan kell Molotov-koktélt készíteni . A bírósági ülést 2022. június 28-án tartották, eredménye szerint az Internet Archívumot 800 ezer rubelre büntették [137] .
pulyka2016. október 9-én az archívumot ideiglenesen letiltották Törökországban , miután hackerek 17 GB kormányzati e-mail tárolására használták [138] .
India2017-ben Indiában blokkolták a WayBackMachine szolgáltatás weboldalát a Madras Court döntése alapján, válaszul a bollywoodi szerzői jogok birtokosainak keresetére, akik jelezték, hogy a portál több ezer linket tartalmaz filmek kalózmásolatára [139] . A zárlat után az indiai kormányt cenzúrával vádolták [140] [141] .