Adatbázis megőrzés

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2022. július 17-én felülvizsgált verziótól ; az ellenőrzéshez 1 szerkesztés szükséges .

Az adatbázis megőrzése általában azt jelenti, hogy az adatbázisban tárolt információkat olyan formává alakítják, amely a technológia változásaival hosszú távon is hozzáférhetővé válik anélkül, hogy elveszítené az adatok eredeti jellemzőit (kontextus, tartalom, szerkezet, megjelenés és viselkedés) [1] . Az adatbázis-megőrzést nem szabad összetéveszteni a biztonsági mentéssel . Míg a biztonsági mentés célja, hogy az adatbázis verzióját egy adott időpontban naprakészen tartsa, hogy bármilyen probléma esetén gyorsan vissza lehessen állítani és folytatni lehessen vele a munkát, beleértve a módosítást is. , a megőrzés célja, hogy viszonylag hosszú ideig hozzáférést biztosítson a megváltoztathatatlan adatbázis-tartalmakhoz, amely során az adatbázis létrehozásának alapjául szolgáló DBMS műszaki tulajdonságai megváltozhatnak, és a megőrzött adatbázis létrehozásához használt szoftver eltűnhet a hozzáférésből. . A konzerválás nem jelent azonnali helyreállítást, hanem az adatbázisban lévő állapot minél pontosabb reprodukálását célozza, beleértve a jövőbeli rendszereket is, amelyekről az adatbázis megőrzésének időpontjában semmit nem tudunk.

Az adatbázisok elterjedésével különféle módszereket fejlesztettek ki, amelyek segítik az adatbázisok és azok tartalmának megőrzését. Ezek a módszerek az adatbázis jellemzőitől és a megőrzés konkrét céljától függően változnak [2] .

Három fő módszer létezik az adatbázis megőrzési célú mentésére: migráció, XML és emuláció. Vannak olyan eszközök, szoftverek és projektek is, amelyek az adatbázisok megőrzését segítik, például a SIARD, a Digital Preservation Toolkit, a CHRONOS és a RODA [1] .

Adatbázis jellemzői

A mentés során magának az adatbázisnak a jellemzőit kell figyelembe venni. A relációs adatbázisok szerkezetükben az adott DBMS-től függetlenül egységesek - rekordokban lévő adatokat tartalmazó táblákból állnak, majd ezeket a táblákat kulcsok segítségével kapcsolják össze [3] .

A NoSQL adatbázisok megfelelő tárolása nagyobb kihívást jelent [4] .

Az adatbázisokat nyitottnak vagy zártnak, statikusnak vagy dinamikusnak nevezzük. Ha egy adatbázist nyitottnak tekintünk, az azt jelenti, hogy nyitott további adatok hozzáadására, ha viszont egy adatbázist zártnak tekintünk, akkor az ellenkezőjét jelenti - azt, hogy befejezett jellege miatt zárva van az új adatok elől. Egy adatbázis akkor tekinthető statikusnak, ha olyan rekordokat tartalmaz, amelyeket nem szerkesztenek vagy módosítanak az eredeti engedélyezésük után, de egy adatbázis akkor tekinthető dinamikusnak, ha olyan rekordokat tartalmaz, amelyek a jövőben szerkeszthetők. Az, hogy egy adatbázis nyitott és statikus, nyitott és dinamikus, zárt és statikus, vagy zárt és dinamikus, befolyásolhatja a megőrzésére használt módszereket. Egy dinamikus adatbázist nehezebb fenntartani, mint egy statikus adatbázist, mert az adatok folyamatosan változnak, és nehezebb fenntartani egy nyitott adatbázist, mint egy zártét, mert folyamatosan bővülnek az adatok. Minél gyakrabban módosul egy adatbázis, akár egy rekordban, akár egy rekord hozzáadásával, annál több lépést kell tenni a változtatás megőrzés céljából [2] .

Adatbázis megőrzési módszerek

A három fő digitális adatmegőrzési technika az adatbázisok megőrzésére is alkalmazható. Ezek a módszerek közé tartozik a migráció, az XML és az emuláció [1] .

Migráció

A migrációs módszer (más néven lusta archiválás) [3] magában foglalja az adatok migrálását egy elavult adatbázisprogramból egy újabb formátumba. Három migrációs módszer létezik: visszafelé kompatibilis migráció, együttműködés és átalakítás szabványos formátumba. A visszamenőleges kompatibilitás magában foglalja a szoftver újabb verzióinak használatát egy régebbi verzióval létrehozott dokumentum megnyitásához, eléréséhez és olvasásához. Ez azt jelenti, hogy az adatformátumok kompatibilitásáért a szoftver fejlesztői felelősek.

Az interoperabilitás magában foglalja az elavultság valószínűségének csökkentését azáltal, hogy egy adott fájlt szoftver és hardver több kombinációján keresztül is elérhetővé tesz.

A szabványokra való átállás magában foglalja az adattárolás átvitelét egy védett formátumról egy nyílt, könnyebben hozzáférhető és széles körben használt formátumra [1] .

XML

Az XML-módszer (más néven XML-normalizáció) [3] magában foglalja az eredeti adatbázis-információk szabványos XML-formátumba konvertálását. Az XML mint formátum nem igényel semmilyen speciális hardvert vagy szoftvert (kivéve a szövegszerkesztőt vagy a szövegszerkesztőt), és ember és gép által is olvasható, így az adatmegőrzés és -tárolás stabil formátuma [1] . Az adatok XML formátumba konvertálásakor azonban az adatbázis néhány interaktív funkciója, például a lekérdezési képesség elveszik [3] .

Emuláció

Az emulációs módszer egy régi számítási környezet újbóli létrehozását jelenti új technológiák és szoftverek használatával. Ez lehetővé teszi, hogy a régi szoftverek, hardverek vagy fájlformátumok elérhetők maradjanak az újabb rendszereken. Ezért egy örökölt adatbázis futtatható olyan emulátoron, amely utánozza azt a környezetet, amelyben az adatbázis eredetileg létrejött [1] .

Adatmegőrzési eszközök

SIARD

A Software Independent Archiving of Relational Databases (SIARD) formátum 1.0-s verzióját a Svájci Szövetségi Levéltár fejlesztette ki 2007-ben. Úgy tervezték, hogy szállítófüggetlen módon archiválja a relációs adatbázisokat. A SIARD archívum az XML és SQL:1999 alapú ZIP fájlok csomagja . A SIARD fájl tartalmazza mind az adatbázis tartalmát, mind a géppel olvasható szerkezeti metaadatokat, amelyek az adatbázistáblák szerkezetét és azok kapcsolatait tartalmazzák. A ZIP-fájl tartalmaz egy XML-fájlt, amely leírja az adatbázis szerkezetét (metadata.xml), valamint egy XML-fájlkészletet, táblánként egyet, amelyek a tábla tartalmát tartalmazzák. A SIARD archívum szövegfájlokat és bináris fájlokat is tartalmazhat, amelyek nagy adatbázis-objektumokat (BLOB-okat és CLOB-okat) képviselnek. A SIARD közvetlen hozzáférést tesz lehetővé az egyes táblákhoz, lehetővé téve azok ZIP-eszközökkel történő vizsgálat céljából történő kibontását. A SIARD archívum nem éles adatbázis, de támogatja az archivált adatbázis újraintegrálását egy másik relációs adatbázis-kezelő rendszerbe (RDBMS), amely támogatja az SQL:1999-et. Ezenkívül a SIARD támogatja az adatbázisban nem rögzített leíró és kontextuális metaadatok hozzáadását, valamint a dokumentációs fájlok archívumba való beágyazását [5] . A SIARD 1.0-s verzióját 2013-ban formalizálták eCH-0165 szabványként [6] .

A SIARDDK a SIARD 1.0 formátum egy változata, amelyet a Dán Nemzeti Levéltár módosított [7] .

A SIARD tárolási formátum 2.0-s verzióját (eredeti nevén SIARD-E [7] ) a Svájci Szövetségi Levéltár fejlesztette ki az E-ARK projekt égisze alatt .

A 2.0-s verzió az 1.0-s verzióra épül, és olyan formátumot határoz meg, amely visszafelé kompatibilis az 1.0-s verzióval. És a fejlesztők szerint a SIARDDK és a DBML formátum legjobb tulajdonságait is tartalmazza [7] . A 2.0-s verzió új funkciói a következők:

A SIARD specifikáció 2.1-es verzióját a specifikálók 2018 júliusában tették közzé, de soha nem fogadták el ECH-szabványként [7] .

DBML (Database Markup Language)

XML-séma , amelyet José Carlos Ramalho kutató készített a Minho-i Egyetemen, amely egy relációs adatbázisból vett táblákra vonatkozó adatokat és információkat ábrázol. 2007-ben jelent meg [8] .

CHRONOS

A CHRONOS (CSP Chronos Archiving) egy szabadalmaztatott szoftvertermék, amely adatbázis-megőrző eszközként szolgál [4] . A CHRONOS-t 2004 és 2006 között fejlesztette ki a CSP a Landshuti Egyetem Számítástechnikai Karával együttműködve [4] [9] . A CHRONOS lekéri az adatokat egy adatbázis-kezelő rendszerből, és a CHRONOS archívumában tárolja azokat szöveges vagy XML-fájlokként. Így minden adat elérhető és olvasható adatbázis-kezelő rendszer vagy maga a CHRONOS nélkül, mivel szöveges formátumú. Ez kiküszöböli annak szükségességét, hogy egy DBMS-t kizárólag a tárolt statikus adatbázisok olvasására tartsanak fenn, valamint szükségtelenné válik az adatbázisfájlok potenciálisan kockázatos portolása új adatbázis-formátumokba [9] . Bár a CHRONOS szöveges formátumban tárolja az adatokat, lekérdezési képességei a relációs adatbázisokéhoz hasonlíthatók [4] .

Database Preservation Toolkit

A RODA projekt által a relációs adatbázisok normalizált formátumban történő betöltésére és mentésére tett lépések közül az egyik fontos az archivált adatbázisok mentésére, majd azok elérésére szolgáló eszköz fejlesztése volt. Ezt az eszközt Database Preservation Toolkitnek, vagy DBPTK-nak, röviden dbtoolkitnek hívták. A Database Preservation Toolkit használatakor a relációs adatbázisból származó adatokat a rendszer DBML vagy SIARD formátumba konvertálja a normalizálásuk érdekében. Mindkét formátum a szabványos XML formátumon alapul, amely nem igényel speciális vagy védett szoftvert, és ideális adatmegőrzési célokra [10] .

A DBPTK lehetővé teszi az adatbázis-formátumok közötti konverziót, beleértve az élő rendszerekhez való csatlakozás módját is, az adatbázisok megőrzése érdekében. Az átalakítási folyamat során az eszközkészlet egyedi információkat nyer ki a DBMS-ről DBMS-specifikus összekötők segítségével. Ezek az összekötők egy adott DBMS-hez csatlakoznak, és adatokat vonnak ki onnan. Az adatok ezután a kiválasztott megőrzési formátumba exportálódnak. Új csatlakozók (I/O modulok) [10] [11] fejleszthetők az új DBMS-ekhez való csatlakozáshoz és az adatok új formátumban történő mentéséhez . A DBPTK azt is lehetővé teszi, hogy adatokat exportáljon megőrzési formátumokból egy futó DBMS-be. Például támogatja a speciális MySQL exportot, amely a PhpMyAdmin számára optimalizált, így teljes mértékben kísérletezhet az adatbázissal a webes felület segítségével.

A Database Preservation Toolkit eredetileg a RODA projekt része volt, majd később önálló termékként adták ki. Az E-ARK projektben továbbfejlesztették a SIARD [12] mentési formátum új verziójával együtt .

Adatbázis megőrzési projektek

Ezen a területen a kutatási projektek a következők:

Repository of Authentic Digital Objects (RODA)

A RODA, más néven Repository of Authentic Digital Objects, egy projekt, amelyet 2006-ban indított Portugáliában a Portugál Nemzeti Levéltár azzal a céllal, hogy megőrizze a portugál kormányzati intézmények által létrehozott digitális objektumokat. A projekt célja az volt, hogy több típusú digitális objektumot egy tárolóba egyesítsen, beleértve a relációs adatbázisokat is. Mivel számos különböző típusú digitális objektum egységes tárháza, a RODA arra törekszik, hogy minden letöltött objektumot normalizáljon, vagyis minimalizálja a dokumentumok tárolására használt formátumtípusokat és a hasonló dokumentumokat azonos formátumban mentse [10] .

A RODA projekt az adatbázisok digitális objektumként való tárolására szolgáló szabványosított módszer létrehozására összpontosított. Az adatbázis mentése egyedülálló kihívás, mert a mentés folyamata három szintre oszlik: adatok, struktúra (logika) és szemantika (interfész) [17] . A projekt célkitűzéseiben meghatározásra került, hogy az adatbázis adatait, valamint azok szerkezetét és szemantikáját meg kell őrizni. Mindhárom elem megőrzésére a RODA projekt egy adatbázis-megőrző eszközkészletet fejlesztett ki [10] .

Lásd még

Jegyzetek

  1. ↑ 1 2 3 4 5 6 Stichting ICTU. Testbed Digital Bewaring. Van digitális vluchtigheid naar digitális houvast . - Den Haag: Testbed Digitale Bewaring, 2003. - 4 dl. Val vel. - ISBN 90-807758-1-9 , 978-90-807758-1-7.
  2. ↑ 1 2 Kevin Ashley. Az adatbázisok megőrzése  // VINE. - 2004-01-01. - T. 34 , sz. 2 . – S. 66–70 . — ISSN 0305-5728 . - doi : 10.1108/03055720410551075 .
  3. ↑ 1 2 3 4 Brogan, M. és Brown, J. (n.d.). A dgitális megőrzés kihívásai: Relációs adatbázisok . School of Computer and Information Science, Edith Cowan University. Letöltve: 2022. július 5. Az eredetiből archiválva : 2021. október 6..
  4. ↑ 1 2 3 4 Andrew Lindley. Adatbázis-megőrzési értékelő jelentés -SIARD vs. CHRONOS Összetett struktúrák adatbázisként való megőrzése rekordközpontú megközelítéssel?  (angol) . - 2013. - doi : 10.13140/2.1.3272.8005 .
  5. SIARD (Relációs adatbázisok szoftverfüggetlen archiválása) 1.0-s verzió . www.loc.gov (2015. május 30.). Letöltve: 2022. július 12.
  6. Bruggisser, H., Büchler, G., Dubois, A., Kaiser, M., Kansy, L., Lischer, M., Röthlisberger-Jourdan, C., Thomas, H., & Voss, A. (2015) ). eCH-0165 SIARD formátumspecifikáció 2.0 (tervezet) . eCH E kormányzati szabványok. https://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
  7. ↑ 1 2 3 4 SIARD (Relációs adatbázisok szoftverfüggetlen archiválása) 1.0-s verzió . www.loc.gov (2015. május 30.). Letöltve: 2022. július 15.
  8. Relációs adatbázisok megőrzése XML modellezéssel . Extrém jelölőnyelvek (2007. augusztus 7.). Hozzáférés időpontja: 2017. április 16.
  9. ↑ 1 2 Brandl, S. és Keller-Marxer, P. (2007, március 23). Relációs adatbázisok hosszú távú archiválása Chronos segítségével [Prezentáció]. Első nemzetközi műhely az adatbázisok megőrzésével kapcsolatban (PresDB'07), Edinburgh, Skócia. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.459.5158&rep=rep1&type=pdf
  10. ↑ 1 2 3 4 Ramalho, JC, Faria, L., Helder, S., & Coutada, M. (2013, december 31.). Database Preservation Toolkit: Rugalmas eszköz az adatbázisok normalizálására és hozzáférés biztosítására . Minho Egyetem. https://core.ac.uk/display/55635702?source=1&algorithmId=15&similarToDoc=55614406&similarToDocKey=CORE&recSetID=f3ffea4d-1504-45e9-bfd6-a0495f5c8f9c&position=2&recommendation_type=same_repo&otherRecs=55614407,55635702,55607961,55613627,2255664
  11. 1 2 db-preservation-toolkit by keeps .
  12. RODA közösség – Autentikus digitális objektumok tárháza .
  13. Heuscher, Stephan. Hiteles hosszú távú archív hozzáférés biztosítása összetett relációs adatokhoz // Proceedings PV-2004: A tudományos és műszaki adatok hosszú távú megőrzésének biztosítása és értéknövelés, 2004. október 5-7. / Stephan Heuscher, Stephan Jaermann, Peter Keller-Marxer … [ stb. ] . - 2004. - P. 241-261.
  14. RODA és kiságy: Szolgáltatás-orientált digitális adattár .
  15. Duurzaam beheer van digitális archívum - National Archief .
  16. LOCKSS – Sok másolat őrzi meg a dolgokat . Stanford Egyetem. Hozzáférés időpontja: 2017. április 16.
  17. Ribeiro, C. és David, G. (2009, március 11.). Adatbázis megőrzése . Digital Preservation Europe. https://digitalpreservationeurope.eu/publications/briefs/database_preservation_ribiero_david.pdf