Szöveges fájl

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2022. május 28-án felülvizsgált verziótól ; az ellenőrzések 5 szerkesztést igényelnek .
Szöveges fájl
MIME típus szöveges/egyszerű
Szemben bináris fájl és grafikus fájl
Fájlkiterjesztés .txtvagy.text
 Médiafájlok a Wikimedia Commons oldalon

A szövegfájl  egy szöveges adatokat tartalmazó számítógépes fájl . A szöveges fájlok ellentétesek a bináris (bináris) fájlokkal , amelyek nem szövegként értelmezhető adatokat tartalmaznak (például olyan fájlok, amelyek szöveget kódolt vagy tömörített formában tárolnak, vagy amelyek nem szöveget, hanem hangot, képet vagy mást tárolnak. adat).

Ellentétben a "text data" (szöveges adatformátum) kifejezéssel, amely az adatok tartalmát jellemzi, a "szövegfájl" kifejezés egy fájlra vonatkozik, és az ilyen adatokat tároló tárolóként jellemzi.

Leírás

A szöveges fájl karaktersorozatot tartalmaz (többnyire nyomtatott karakterek , amelyek egyik vagy másik karakterkészlethez tartoznak ). Ezeket a karaktereket általában sorokba csoportosítják ( angol  vonalak, sorok ). A modern rendszerekben a sorokat sorelválasztóval választják el , míg korábban a karakterláncokat állandó vagy változó hosszúságú rekordokként tárolták (lásd: Lyukkártya ). Néha egy szövegfájl vége (különösen, ha a fájlrendszer nem tárol információt a fájl méretéről) egy vagy több speciális karakterrel is meg van jelölve, amelyeket fájlvégjelzőként ismerünk .

Előnyök és hátrányok

Előnyök:

Hibák:

Szövegfájlokon alapuló formátumok

A szöveges fájlokat egyszerűségük miatt gyakran használják szolgáltatási információk (például naplók ) tárolására: mivel a szöveges fájl végére új adatok hozzáadásának művelete nem igényel jelentős számítási erőforrást, függetlenül a már rendelkezésre álló fájl méretétől. és a hozzáadott szöveges adatok típusa, a szöveges naplófájlok karbantartása általában hatékonyan és észrevehetetlenül történik a felhasználó és más alkalmazások számára (a lemezterület kimerüléséig).

A szövegformátum sok speciálisabb formátum alapjául szolgál (pl . .ini , SGML , HTML , XML , TeX , programozási nyelv forráskódja ). Ezen formátumok némelyikében bizonyos karakterkombinációk használhatók szövegjelölésként. Ebben az esetben a fájl formázott szöveget tud tárolni, amelyben a karakterekhez további betűtípus, stílus, méret stb. is megadható (például Rich Text Format , HTML ).

Fájlnév-kiterjesztések

DOS , macOS és Windows rendszeren az egyszerű szöveges fájlok általában a .txt kiterjesztést használják . A szövegfájlok azonban lehetnek bármilyen más kiterjesztéssel vagy anélkül. Például a programok forráskódjait általában a programozási nyelvnek megfelelő kiterjesztésű fájlokban tárolják ( .java , .bas , .pas , .c ).

A formázott szöveget (jelöléssel ellátott szöveg) általában a formátumnak vagy jelölőnyelvnek megfelelő kiterjesztésű fájlokban tárolják  - .rtf , .htm , .html .

Kódolások

8 bites szöveg

Történelmileg a 7 bites ASCII karakterkészletet , valamint a 8 bites EBCDIC -et és a különböző ASCII-kiterjesztéseket használták szövegfájlok kódolására . A 8 bites kódlapokon elterjedt az ASCII-nek megfelelő karakterek használata a kódtábla első felében.

A 8 bites szövegábrázolás előnye a programozási egyszerűség, valamint a bájtsorrenddel vagy a gépi szóhossz - problémáktól való függetlenség . Hátránya a nagyszámú különböző szabvány, ami összeférhetetlenséghez vezethet.

Unicode szöveges fájlokban

A Unicode szöveges fájlok használata, bár alapvetően megoldja a „kódolási problémát”, és szabványosítja a vezérlőkarakterek használatát, saját problémákat okoz. A legtöbb modern rendszerben az adatfolyamban az információ oszthatatlan egysége egy bájt (8 bit) , amelyhez több karakter szükséges egy Unicode karakter kódolásához. A megoldás az inkompatibilis UTF-8 rendszerek és az UTF-16 két verziójának használata (UTF-16LE és UTF-16BE ellentétes végződéssel ) . Néha egy speciális marker karakter (U+FEFF [1] ) kerül a fájl elejére, amely lehetővé teszi a formátum egyértelmű felismerését. Az UTF-8 előnye, hogy visszafelé kompatibilis az ASCII-vel, de az UTF-8 programozott szövegfeldolgozását bonyolítja a változó karakterméret. Ezenkívül a Unicode szövegek még redundánsabbak , mint a 8 bitesek.

Vezérlőkarakterek

A különböző operációs rendszereknek megvan a saját módja az újsorok és a fájlvégek megjelenítésének. UNIX - ban a soremelés egyetlen LF-karakterből áll (0xA kód), Mac OS -en (de nem macOS -en) egy CR-karakterből (0xD-kód), DOS -ban és Windows-ban pedig a soremelés sorozatként van kódolva. két karakterből áll: CR és LF.

Ezt az eltérést az írógépek működési elvei diktálják: új sorba lépéshez vissza kell tenni a kocsit a sor elejére ( kocsi vissza ), majd egy sorral el kell forgatni a dobot ( soremelés ). Nyomtatón történő nyomtatáskor az egyik és a másik karakter elkülönülhet egymástól (például egy sor kijelölése kétszeri nyomtatással, vagy a dob több sornyi görgetése), de ez nem szükséges szöveges fájlokban.

A megnevezetteken kívül a szöveges fájlokban olyan karakterek találhatók, mint a táblázatos (9-es kód) és az oldalhúzás (0xC kód). Ez utóbbit használták a régi szövegszerkesztők, mint például a LEXICON , valamint a nyomtatón történő nyomtatásra szánt fájlokban.

Jegyzetek

  1. Az Unicode szabvány, 2. rész . Letöltve: 2008. augusztus 11. Az eredetiből archiválva : 2021. április 22.