Szöveges fájl

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2022. május 28-án felülvizsgált verziótól ; az ellenőrzések 5 szerkesztést igényelnek .

Szöveges fájl


MIME típus	szöveges/egyszerű
Szemben	bináris fájl és grafikus fájl
Fájlkiterjesztés	.txtvagy.text
Médiafájlok a Wikimedia Commons oldalon

A szövegfájl egy szöveges adatokat tartalmazó számítógépes fájl . A szöveges fájlok ellentétesek a bináris (bináris) fájlokkal , amelyek nem szövegként értelmezhető adatokat tartalmaznak (például olyan fájlok, amelyek szöveget kódolt vagy tömörített formában tárolnak, vagy amelyek nem szöveget, hanem hangot, képet vagy mást tárolnak. adat).

Ellentétben a "text data" (szöveges adatformátum) kifejezéssel, amely az adatok tartalmát jellemzi, a "szövegfájl" kifejezés egy fájlra vonatkozik, és az ilyen adatokat tároló tárolóként jellemzi.

Leírás

A szöveges fájl karaktersorozatot tartalmaz (többnyire nyomtatott karakterek , amelyek egyik vagy másik karakterkészlethez tartoznak ). Ezeket a karaktereket általában sorokba csoportosítják ( angol vonalak, sorok ). A modern rendszerekben a sorokat sorelválasztóval választják el , míg korábban a karakterláncokat állandó vagy változó hosszúságú rekordokként tárolták (lásd: Lyukkártya ). Néha egy szövegfájl vége (különösen, ha a fájlrendszer nem tárol információt a fájl méretéről) egy vagy több speciális karakterrel is meg van jelölve, amelyeket fájlvégjelzőként ismerünk .

Előnyök és hátrányok

Előnyök:

Univerzális - a szöveges fájl (így vagy úgy) bármely rendszeren vagy operációs rendszeren olvasható , különösen, ha egybájtos kódolásokról van szó, mint például az ASCII , amelyekre nem vonatkoznak a más fájlformátumokra jellemző problémák - nem törődnek vele a bájtsorrend vagy a géphosszúságú szavak különbsége .
Perzisztencia - egy ilyen fájlban minden szó és karakter önellátó, és ha egy ilyen fájlban bájtsérülés történik, általában lehetséges az adatok helyreállítása vagy a tartalom többi részének feldolgozása, míg a tömörített vagy bináris fájlokban több bájtok teljesen visszaállíthatatlanná tehetik a fájlt. Sok verziókezelő rendszer szöveges fájlokhoz készült, és csak a bináris fájlokkal együtt tud működni.
A szöveges fájlformátum rendkívül egyszerű, és szövegszerkesztővel módosítható , amely program szinte minden operációs rendszerhez tartozik .

Hibák:

A nagyméretű, tömörítetlen szövegfájlok alacsony információs entrópiával rendelkeznek – ezek a fájlok több helyet foglalnak el, mint a minimálisan szükséges. Bár ez a redundancia meghatározza az adatátviteli csatornák meghibásodásával szembeni fokozott ellenállást és adathordozókról , például mágnesszalagról történő adatvételkor .
A szöveges fájlokon végzett egyes műveletek nem hatékonyak. Például, ha egy számot találunk egy fájlban, a számítástechnikai rendszernek a művelet megkezdése előtt át kell alakítania azt belső formátumára egy viszonylag összetett számkonverziós eljárás segítségével; az 1000. sorhoz 999 sort kell megszámolni; nehéz az egyik karakterláncot helyettesíteni egy másikkal stb. Ezért, amikor nagy mennyiségű adattal dolgozik, a szövegfájlokat csak köztes formátumként használják, amely biztosítja az együttműködést .

Szövegfájlokon alapuló formátumok

A szöveges fájlokat egyszerűségük miatt gyakran használják szolgáltatási információk (például naplók ) tárolására: mivel a szöveges fájl végére új adatok hozzáadásának művelete nem igényel jelentős számítási erőforrást, függetlenül a már rendelkezésre álló fájl méretétől. és a hozzáadott szöveges adatok típusa, a szöveges naplófájlok karbantartása általában hatékonyan és észrevehetetlenül történik a felhasználó és más alkalmazások számára (a lemezterület kimerüléséig).

A szövegformátum sok speciálisabb formátum alapjául szolgál (pl . .ini , SGML , HTML , XML , TeX , programozási nyelv forráskódja ). Ezen formátumok némelyikében bizonyos karakterkombinációk használhatók szövegjelölésként. Ebben az esetben a fájl formázott szöveget tud tárolni, amelyben a karakterekhez további betűtípus, stílus, méret stb. is megadható (például Rich Text Format , HTML ).

Fájlnév-kiterjesztések

DOS , macOS és Windows rendszeren az egyszerű szöveges fájlok általában a .txt kiterjesztést használják . A szövegfájlok azonban lehetnek bármilyen más kiterjesztéssel vagy anélkül. Például a programok forráskódjait általában a programozási nyelvnek megfelelő kiterjesztésű fájlokban tárolják ( .java , .bas , .pas , .c ).

A formázott szöveget (jelöléssel ellátott szöveg) általában a formátumnak vagy jelölőnyelvnek megfelelő kiterjesztésű fájlokban tárolják - .rtf , .htm , .html .

Kódolások

8 bites szöveg

Történelmileg a 7 bites ASCII karakterkészletet , valamint a 8 bites EBCDIC -et és a különböző ASCII-kiterjesztéseket használták szövegfájlok kódolására . A 8 bites kódlapokon elterjedt az ASCII-nek megfelelő karakterek használata a kódtábla első felében.

A 8 bites szövegábrázolás előnye a programozási egyszerűség, valamint a bájtsorrenddel vagy a gépi szóhossz - problémáktól való függetlenség . Hátránya a nagyszámú különböző szabvány, ami összeférhetetlenséghez vezethet.

Unicode szöveges fájlokban

A Unicode szöveges fájlok használata, bár alapvetően megoldja a „kódolási problémát”, és szabványosítja a vezérlőkarakterek használatát, saját problémákat okoz. A legtöbb modern rendszerben az adatfolyamban az információ oszthatatlan egysége egy bájt (8 bit) , amelyhez több karakter szükséges egy Unicode karakter kódolásához. A megoldás az inkompatibilis UTF-8 rendszerek és az UTF-16 két verziójának használata (UTF-16LE és UTF-16BE ellentétes végződéssel ) . Néha egy speciális marker karakter (U+FEFF [1] ) kerül a fájl elejére, amely lehetővé teszi a formátum egyértelmű felismerését. Az UTF-8 előnye, hogy visszafelé kompatibilis az ASCII-vel, de az UTF-8 programozott szövegfeldolgozását bonyolítja a változó karakterméret. Ezenkívül a Unicode szövegek még redundánsabbak , mint a 8 bitesek.

Vezérlőkarakterek

A különböző operációs rendszereknek megvan a saját módja az újsorok és a fájlvégek megjelenítésének. UNIX - ban a soremelés egyetlen LF-karakterből áll (0xA kód), Mac OS -en (de nem macOS -en) egy CR-karakterből (0xD-kód), DOS -ban és Windows-ban pedig a soremelés sorozatként van kódolva. két karakterből áll: CR és LF.

Ezt az eltérést az írógépek működési elvei diktálják: új sorba lépéshez vissza kell tenni a kocsit a sor elejére ( kocsi vissza ), majd egy sorral el kell forgatni a dobot ( soremelés ). Nyomtatón történő nyomtatáskor az egyik és a másik karakter elkülönülhet egymástól (például egy sor kijelölése kétszeri nyomtatással, vagy a dob több sornyi görgetése), de ez nem szükséges szöveges fájlokban.

A megnevezetteken kívül a szöveges fájlokban olyan karakterek találhatók, mint a táblázatos (9-es kód) és az oldalhúzás (0xC kód). Ez utóbbit használták a régi szövegszerkesztők, mint például a LEXICON , valamint a nyomtatón történő nyomtatásra szánt fájlokban.

Jegyzetek

↑ Az Unicode szabvány, 2. rész . Letöltve: 2008. augusztus 11. Az eredetiből archiválva : 2021. április 22. (határozatlan)

E-könyvek ( eszközök és dokumentumok )
Készülék sorozat	Amazon Kindle Zug FR könyv LBook MAGIC-E701 Onex Touch&Read Onyx Boox PAGEone PocketBook International REB 1100 Rakéta eBook Sony Reader ( lista ) ABC lista…
Fájlformátumok	CBR DjVu DOC ePub Facebook ODF PDF BBeB TXT
Katalógusok	Alfa Books Manager Minden könyvem Kaliber MyHomeLib MyRuLib Texidium
Könyvtárak	amazon Barnes & Noble könyvtársak FictionBook.ru Google Könyvek HathiTrust Indiai Nemzeti Digitális Könyvtár Ozon.ru Aldebaran Internetes archívum Moshkov könyvtár Wikiforrás Librusek Litnet liter Marxista Internet Archívum Gutenberg projekt R univerzum Flibusta Oroszország tudományos öröksége
Lásd még	Elektronikus papír Braille e-könyv