A hivatkozások kioltása ( angol link rot , szó szerint - link rot ) egy olyan folyamat, amelyben a használt URL -ek már nem az eredeti forrásra irányítanak. Az ilyen hivatkozásokat megszakadt vagy holt hivatkozásoknak nevezzük . Kihalásnak vagy bomlásnak két fő folyamatot értünk: a referenciarothadást ( a lábjegyzetek kioltása ) és a linkrothadást (a linkek kihalását). Az első esetben az URL továbbra is működik, de hibás vagy módosított oldalra vezet. Ezt a jelenséget tartalomsodródásnak is nevezik . A sodródást nehezebb észlelni, de jelentősebb következményei vannak, mivel hozzájárul a téves információk terjedéséhez vagy a fogalmak helyettesítéséhez. A linkrothadás esetén a hivatkozás nem érhető el, így a felhasználók elveszítik hozzáférésüket a weboldalhoz .
A linkek működése több okból is leállhat. Néha ehhez csak egy karaktert kell módosítani az URL-ben. Például sok webhely felhagyott a „www” előtag használatával, és még ha tartalmuk változatlan maradt is, az eredeti hivatkozások leálltak. Ugyanez történhet a titkosítás megvalósításával és a „ http: ”-ről „ https: ”-re való átállással. Ezenkívül a webhelytulajdonosok átnevezik a könyvtárakat, megváltoztatják a domain neveket és a portál szerkezetét, és elfelejtik frissíteni a domain regisztrációját – mindez hibás hivatkozásokhoz vezet.
A link kihalása idővel előrehalad. Így 1996 és 2021 között a The New York Times (NYT) cikkeiben a harmadik féltől származó forrásokra mutató hivatkozások negyede leállt . Az adatokat több mint 550 000 publikáció elemzéséből nyertük, amelyet a Harvard Law School tagjai a NYT újságíróival együttműködve [1] [2] [3] végeztek .
A hiperhivatkozásokat nemcsak a mindennapi kommunikációban használják széles körben, hanem folyóiratcikkekben, tudományos jelentésekben és más típusú publikációkban is. Népszerűségüket kényelmüknek és megfizethetőségüknek köszönhetik. Például Lawrence Lessig , a harvardi jogász professzor szerint az idézett online cikkek potenciálisan több olvasóhoz jutnak el, mivel "csak egy linkre kattintva" érhetők el. Ezzel párhuzamosan egyre több újság és folyóirat kerül az internetre. A több mint 100 000 cikk elemzése kimutatta, hogy a nyomtatott művek átlagos hivatkozási száma 2,74, az online változatok pedig 7,03 [4] . A legalább egy URL-t idéző cikkek aránya a 2006-os 24%-ról 2013-ra 48,5%-ra nőtt [5] [6] [7] .
A linkek kihalása alatt ( eng. link rot , szó szerint - rotting links ) két fő folyamatot kell érteni: a lábjegyzetek kihalását ( eng. reference rot ) és a linkek kihalását ( eng. link rot ). Az első esetben az URL továbbra is működik, de hibás vagy módosított oldalra vezet. Ezt a jelenséget tartalomsodródásnak is nevezik . A nyomtatott forrásoktól eltérően a weboldal tartalma külön jelölés nélkül változhat. A sodródást nehezebb észlelni, de jelentősebb következményekkel jár, mivel hozzájárul a téves információk terjedéséhez vagy a fogalmak helyettesítéséhez [8] . Azt az esetet, amikor az URL nem elérhető, és hibát ad, linkrot [9] [10] [11] [8] [12] [13] [14] néven nevezzük .
A hivatkozások kihalásának fő oka a világháló decentralizációja – a web kialakítása nem jelenti a tartalom központosított tárolását. A linkek üzemidejét a domainnév -tulajdonosok határozzák meg [15] , akik gyakran elfelejtik megújítani domainregisztrációjukat, figyelik a tartalmat, és nyomon követik a hibás hivatkozásokat. Ezenkívül az oldalak rendszeresen változnak - a weboldalakon maguk módosítják az oldalak információit és szerkezetét, átneveznek fájlokat és könyvtárakat, áthelyezik a tartalmat [16] [2] . A weboldal módosításainak gyakorisága és mértéke a dokumentum méretétől is függ. A nagyobb dokumentumok gyakrabban változnak, mint a kisebbek [17] . Mindez a linkek [4] [8] [18] [16] kihalásához vezet . 2009-ben a Yahoo! leállították a GeoCities ingyenes webtárhely-szervereit , ami 7 millió webhely adatvesztését eredményezte [19] . Emellett a kihalást a hozzáférési beállítások megváltozása is okozhatja, például a regisztráció belépéskor vagy a korábban megnyitott tartalomra való előfizetés bevezetésekor [4] . Szándékos cselekvések következtében a hivatkozások is eltűnhetnek. Így a BuzzFeed szerkesztői szabályzatának 2015-ös megváltoztatása után több mint 1000 bejegyzést töröltek, köztük azokat is, amelyekre korábban a portál hirdetői vagy a partnercégek alkalmazottai panaszkodtak [20] [21] [22] [23] .
Egyetlen karakteres módosítás az URL-ben elegendő ahhoz, hogy a hivatkozás megszakadjon. Például sok webhely felhagyott a „www” előtag használatával, és bár tartalmuk nem változott, az eredeti hivatkozások már nem működnek. Ugyanez történhet a forgalom titkosításának bevezetésekor is: a " http: " helyről a " https: "-re való áttérés helytelen beállítása a link "megszakadását" vonja maga után [24] . Ha a hivatkozás megszakad, akkor a felhasználók többféle hibával találkozhatnak [16] [25] [16] [26] [4] :
A linkek fennmaradását három fő tényező biztosítja: a megjelenés éve, az URL-hierarchia és a legfelső szintű domain [27] [11] . Minél régebbi a link, annál valószínűbb, hogy nem lesz elérhető. A hozzáférési dátum lábjegyzetei valószínűleg stabilabbak – még akkor is, ha egy weboldal nem érhető el, a hozzáférési dátum ismeretében a felhasználók használhatják az olyan archiválási szolgáltatásokat, mint a Wayback Machine . Ezenkívül a legfelső szintű tartományokat stabilabbnak tekintik [28] . A magántulajdonban lévő webhelyek gyakrabban tűnnek el, mint a kormányzati és oktatási oldalak [29] . Egy 2003-as tanulmány szerint a „ .com ” végződésű linkek haltak ki leggyakrabban (46% elveszett 27 hónap után), ezt követte a „ .edu ” (30%), a többi (20%), a „ .gov ” (10%). és " .org " (5%) [30] .
Jonathan Zittrain cikkéből a The Atlantic számára [15][...] Kiderült, hogy a linkek kihalása és a tartalomsodródás az internet szerves része, ami nem meglepő módon és megdöbbentően kockázatos egy olyan könyvtár számára, amely "könyvmilliárdokkal rendelkezik, és nincs központi fájlrendszere". Képzeljünk el egy olyan világot, ahol nem léteznek könyvtárak, helyette a könyvek fizikai másolatainak „megosztási gazdasága” van – az emberek regisztrálhatják az otthonukban lévő könyveiket, mások pedig eljöhetnek megnézni őket. Természetesen nem meglepő, hogy egy ilyen rendszer elavulttá válhat, amikor a könyvek már nem ott vannak, ahol eredetileg címkézték – különösen, ha valaki észreveszi, hogy a könyv 2015-ben valaki más házában volt, és akkor egy másik érdeklődő olvasó jelentést lát 2015-ben, és 2021-ben megpróbálná meglátogatni az eredeti otthont. Jelenleg ez a helyzet alakul ki az interneten.
Az 1990-es évek végén kezdődtek az első nagyszabású tanulmányok a linkek kihalásának prevalenciájáról. Az egyik első kutató Jakob Nielsen volt , a webhelyek teljesítményének szakértője. 1998-ban beszámolt az All Things Web által végzett tanulmány eredményeiről, amely szerint az interneten található linkek mintegy 6%-a megszakadt [31] [9] . Ezt követően a Tennessee Egyetem professzora, Sally McMillan 1997 és 2000 közötti webhelyek mintáját elemezte , és megállapította, hogy az URL-ek 27%-a eltűnt három évvel a létrehozásuk után [29] . A későbbi elemzések bebizonyították, hogy a holt linkek száma idővel lineárisan növekszik. Így 2008-ban az 579 címsorból álló statisztikailag szignifikáns mintából az erőforrás-URL-ek 8,3%-ában jelentek meg holt linkek. 2009-ben egy 680 webhelyből álló mintából származó URL-ek 13,7%-ában találtak hibás hivatkozásokat, 2010-ben pedig a 736 mintából származó összes URL 22,4%-át tették ki a nem működő linkek [11] [9] . 2021-ben a Harvard Law School egyik csapata együttműködött a The New York Times (NYT) újságíróival, hogy a NYT által közzétett cikkek online verziói alapján tanulmányt készítsen az idézettség életképességéről. 1996 óta összesen több mint 550 000 publikációt tanulmányoztak, amelyek mintegy 2,2 millió hivatkozást tartalmaztak harmadik felek webhelyeire. A tanulmány kimutatta, hogy az idézéshez használt linkek csaknem negyede megszűnt működni [1] [2] [3] [1] [2] [3] .
Számos tanulmányt szenteltek a linkek kihalásának kérdéskörének. Olyan tudományos cikkeket elemeztek, amelyekben a szerzők internetes forrásokra támaszkodtak. Egy 2003-as tanulmány megállapította, hogy az első három tudományos folyóiratban közzétett URL-ek körülbelül 13%-a meghibásodott a cikk megjelenését követő huszonhét hónapon belül. 2008-ban egy történelmi folyóiratban végzett tanulmány megállapította, hogy a hivatkozott URL-ek 38%-a a cikk megjelenését követő hét éven belül elérhetetlenné vált, 10%-a pedig néhány hónapon belül működésképtelenné vált. Az új-zélandi tudományos folyóiratok 2002-2005 közötti mintájában az internetes hivatkozások 30%-a 2006-ra leállt [11] . 2013-ban a BMC Bioinformatics elemezte a linkek élettartamát a tudományos irodalomban. Jason Hennessy és Steven Xijin Ge, a Dél-Dakotai Egyetem kutatói mintegy 15 000 idézetet elemeztek a Web of Science Citation Index kivonataiban . Megállapították, hogy a weboldalak átlagos élettartama 9,3 év volt, és a linkeknek csak 62%-a volt archiválva [24] . Ez arra a következtetésre vezette a kutatókat, hogy a legutóbbi URL-ek romlási aránya magasabb, mint a régebbiek [32] [16] [33] [7] . A kutatók azt is megállapították, hogy számos, 1999 és 2011 között megjelent jogi folyóiratban a linkek több mint 70%-a már nem működött [24] [9] .
2008-ban a vezető publikációk négy évének negyedéves elemzése azt mutatta, hogy a 416 online hivatkozásnak csak 61%-a maradt meg. Az online lábjegyzetek 19%-a tartalmazott hibát az URL-ben, 63%-uk pedig nem tartalmazott hozzáférési dátumot a közzétett idézetben. A még aktív linkek mindössze 58%-a egyezik az idézett tartalommal [34] [35] [2] . 2015-ben Herbert Van de Sompel, az új-mexikói Los Alamos Nemzeti Kutatókönyvtár információs szakembere több mint 1 millió internetes hivatkozást elemzett webhelyekre, mintegy 3,5 millió, 1997 és 2012 között megjelent cikkből. A 2012-es cikkekben az arXiv.org cikkekben található hiperhivatkozások 13%-a és az Elsevier magazinok cikkeiben található hivatkozások 22%-a halt meg. A hivatkozások körülbelül 75%-a a cikk megjelenését követő két héten belül egyetlen portálon sem archivált. Ez azt jelenti, hogy tartalmuk már nem tükrözi az eredetit [36] [37] .
A linkek kihalásának ékes példája Alex Tew The Million Dollar Homepage projektje . A portál 2005-ben indult, hogy segítsen a Tew-nek pénzt gyűjteni egyetemi oktatásra. Ehhez kitalált egy 1000 x 1000 pixeles rácsot tartalmazó webhelyet , ahol darabonként egy dollárért helyet vásárolhat a webhelyére mutató hivatkozáshoz. A vevők kis képeket helyezhettek el webhelyeikről, amelyeket egy URL-hez és egy szlogenhez kapcsoltak, amely az egérmutatón volt látható. A portál indulása után 138 nappal az összes pixelt eladták. 2014-re a kezdőlap képpontjainak 22%-a nem töltött be weboldalt [38] [39] .
Az Egyesült Államok Legfelsőbb Bírósága kialakította azt a gyakorlatot, hogy állandó forrásokra hivatkozik – ezek általában könyvek voltak. Az ilyen idézetek lehetővé tették az ügyvédek és tudósok számára, hogy megtalálják, megértsék és értékeljék a bíróság bizonyítékait és érveit. 1996 óta azonban a bírák egyre gyakrabban használnak hivatkozásokat és hiperhivatkozásokat az ítéletek leírásakor [40] [12] [41] . A Harvard Law School professzora, Jonathan Zittrain 2013-as tanulmánya szerint a Legfelsőbb Bíróság határozataiban szereplő hiperhivatkozások körülbelül 49%-a nem működött [42] [43] [44] . A Bíróság a szövetségi bíróságok hierarchiájának tetején áll, meghatározza az ország törvényeit, sőt a nemzetközi joghatóságok törvényeit is befolyásolja, így a határozatokban szereplő holt hivatkozások különösen károsak lehetnek [45] . Például amikor 2011-ben Samuel Alito bíró hivatkozott egy URL-re egy videojátékos erőszakos ügyben, a domain tulajdonosai elhagyták a webhelyet, és ezt az üzenetet hagyták rajta, hogy hangsúlyozzák az interneten közzétett információk mulandóságát [46] :
Nem örül, hogy nem idézte ezt a weboldalt a Legfelsőbb Bíróság Brown kontra Interactive Entertainment Merchants Association , 131 S.Ct. ügyben hozott jelentésében? 2729, 2749 n.14 (2011). Ha ezt teszi, ahogy Alito bíró tette, akkor az eredeti tartalom már régen eltűnt volna, és valaki más bejöhetett volna és megvásárolhatta volna a domaint, hogy véleményt nyilvánítson a kapcsolódó információk sebességéről az internet korában.
A probléma megoldása érdekében a bírósági határozatokban hivatkozott összes webes anyagot papír formában archiválni kezdték. Emellett egy speciális portált is létrehoztak, ahol a webhelyek archivált másolatait tárolják [47] .
Hasonló problémák adódhatnak a jegyzőkönyvek elkészítésekor – a rendőrség támaszkodhat az interneten közzétett videórögzítőkről készült felvételre , amelyet később a tulajdonos törölhet. Más kérdés, hogy mennyi ideig kell tárolni az adatokat a rendszerben – a legtöbb rendőrkapitányságnak nincs elegendő technikai képessége ahhoz, hogy megbirkózzon a beérkező adatok mennyiségével [46] .
A kapcsolatok kihalása sérti és aláássa a tudományos kutatás integritását és bizonyítékalapját minden területen [48] [33] [49] [50] . Már 1996-ban a lektorált elektronikus folyóiratokban az idézetek harmada nem volt elérhető, és sok munkahivatkozás nem tartalmazott teljes információt – hiányzott a kivonatolás dátuma, és a metaadatok formátuma nem megfelelő [51] . Egy 2016-ban végzett tanulmány szerint a tudományos tartalomra mutató linkek 75%-a már nem a szövegben hivatkozott információkra mutat [52] . Ugyanakkor folyamatosan növekszik az internetes forrásokra hivatkozó tudományos közlemények száma [32] . Egyes folyóiratok, mint például a Cancer Research , elkezdték betiltani az URL-ek lábjegyzetekben való használatát. Ez a gyakorlat azonban inkább kivétel [30] .
A linkek széles körben elterjedt kihalása a könyvtárak anyagok archiválási gyakorlatának megváltozásához is vezetett [9] . Ha korábban a papíralapú másolatokat tartották az információ tárolásának fő módjának, és ezek online változata is további lehetőséget jelentett, most a könyvtárak és kiadók digitális formátumra térnek át, a nyomtatott példányokat elavultnak tekintve [15] . Sok könyvtár elkezdte létrehozni saját online archívumát, állandó hozzáféréssel a tárolt anyagokhoz [53] [54] .
A linkek kihalása szerves része a megjósolt digitális sötét kor forgatókönyvének – egy olyan helyzetnek, amikor az elektronikus adatok elvesznek a papíron megfelelő megfelelőik hiányában. Ennek az elméletnek a hívei úgy vélik, hogy a nem megfelelő elektronikus archiválási gyakorlat és az internet egyre növekvő decentralizációja miatt fennáll annak a veszélye, hogy a jövőben elveszítjük korunkkal kapcsolatos információkat [55] [56] . A digitális sötét kor kifejezést először 1997-ben javasolták a Könyvtári Egyesületek és Intézmények Nemzetközi Szövetségének nemzetközi konferenciáján . A meghatározás a középkor korszakára vonatkozik , amelyet az írásos bizonyítékok szinte teljes hiánya jellemez [57] [58] [59] . A Digital Dark Age egyik leggyakoribb példája a régi meghajtókhoz és adathordozókhoz való hozzáférés elvesztése, beleértve a hajlékonylemezeket , Zip meghajtókat és CD -ket [60] [61] [62] [63] [64] [65] .
Az elektronikus archiválás az egyik fő stratégia a hivatkozások kioltásának kezelésére [10] . Ezen a területen több nagy projekt is van. 1996-ban Brewster Cale amerikai programozó megalapította az " Internet Archive "-t - egy non-profit szervezetet , amely azt a célt tűzte ki maga elé, hogy megőrizze az interneten közzétett összes információt, ami nem volt annyira a hálózat kezdeti éveiben. Az Archívum gyűjtemény archivált webhelyek, digitalizált könyvek, hang- és videofájlok, játékok és szoftverek algyűjteményeiből áll. 2001-ben indult útjára a Wayback Machine szolgáltatás, amely a webrobotok munkáján keresztül archivál és hozzáférést biztosít a nyílt internet nagy részéhez. Ezenkívül a szolgáltatás lehetővé teszi a felhasználók számára a szerkesztések különböző verzióinak összehasonlítását. 2021 októberéig a WB több mint 580 milliárd mentett weboldalhoz biztosított hozzáférést [66] [67] [68] [66] [69] . Az adattárolás a földrajzilag távoli helyeken [70] – San Francisco , Richmond , Alexandria , Amszterdam – elhelyezkedő tükörhelyek rendszerén keresztül történik . A hatékony fájltárolás érdekében az "Archívum" az archív fájlformátumot ( ARC ) használja, amely lehetővé teszi bármilyen típusú hálózati protokollon keresztül fogadott fájlok mentését . Az archivált képek HTML , JavaScript és CSS formátumban jelennek meg [70] [24] [9] [32] .
Szintén az Archívum kezdeményezésére jött létre az Archívum szolgáltatás - egy webes archiválási szolgáltatás, amely lehetővé teszi az egyének és egyéni szervezők számára, hogy önállóan gyűjtsenek, készítsenek és mentsenek elektronikus anyagok gyűjteményeit. 2021 októberétől a felhasználók több mint 200 gyűjteményhez férhetnek hozzá a történelemről, a kultúráról, a tudományról, az emberi jogokról és más társadalmilag fontos témákról [70] [24] [9] [32] .
A Wayback Machine projekthez hasonló a Perma.cc , egy archiválási szolgáltatás, amelyet a Massachusetts állambeli Cambridge-ben található Harvard Law School Library hozott létre . A Perma.cc-ben megadhat egy URL-t, és a rendszer automatikusan archiválja azt, létrehozva egy új hiperhivatkozást az anyag végleges tárolására [36] [9] . A Permát leggyakrabban jogi területen használják az idézett források megőrzésére [71] . Az Egyesült Államokban elterjedt Bluebook stilisztikai útmutató a linkek archiválását ösztönzi [72] [73] . Egyes kutatók ugyanakkor rámutatnak a portál potenciális sebezhetőségére, mivel a hatályos szerzői jogi szabályozás nem fordít kellő figyelmet a webarchívumok létezésére és működésére [74] .
Az Amber nyílt forráskódú projekt , amelyet a Berkman Klein Center for Internet & Society hozott létre , lehetővé teszi, hogy pillanatképeket készítsen egy archivált webhelyhez kapcsolódó minden oldalról, és elmentse azokat helyben vagy egy központi platformra, például az Internet Archívumra vagy a Permára. cc. Ha a projekt úgy találja, hogy a link megszakadt vagy nem működik megfelelően, amikor anyagot visz be az Amberbe, Amber archiválást javasol [9] [75] .
A tudományos területen a linkek kihalásának leküzdésére a Nemzetközi Szabványügyi Szervezet által 2000-ben kifejlesztett Digital Object Identifier (DOI) módszert használják. A DOI egy állandó azonosító, amely egy adott objektumra mutató hivatkozásként funkcionál, legyen szó cikkről, hangról vagy videóról [30] [32] . A DOI hozzárendelése után az objektum egy "állandó" ragadós hivatkozást kap, amely az URL-ekkel ellentétben nem mozgatható vagy törölhető. Sok kiadó adaptálta a rendszert [76] . A DOI-t speciális nyilvántartásokban tárolják az egyes elemek metaadataival együtt. A művek idézése numerikus azonosítón keresztül történik, nem hiperhivatkozáson keresztül. Egy ilyen rendszer lehetővé teszi a stabilitás megteremtését a tudományos hivatkozás területén – még ha az anyag átkerül egy új URL-re, akkor is elérhető lesz [77] . Különböző becslések szerint a DOI széles körű elterjedésének segítségével meg lehet akadályozni, hogy a tudományos közleményekben a linkek 30-60%-a kihaljon [32] [78] [24] [77] . A DOI-nak azonban van egy jelentős hátránya – a művek regisztrációs díjának fizetése miatt sok kis kiadó nem engedheti meg magának a rendszer bevezetését [30] .