Szöveges fájl | |
---|---|
MIME típus | szöveges/egyszerű |
Szemben | bináris fájl és grafikus fájl |
Fájlkiterjesztés | .txtvagy.text |
Médiafájlok a Wikimedia Commons oldalon |
A szövegfájl egy szöveges adatokat tartalmazó számítógépes fájl . A szöveges fájlok ellentétesek a bináris (bináris) fájlokkal , amelyek nem szövegként értelmezhető adatokat tartalmaznak (például olyan fájlok, amelyek szöveget kódolt vagy tömörített formában tárolnak, vagy amelyek nem szöveget, hanem hangot, képet vagy mást tárolnak. adat).
Ellentétben a "text data" (szöveges adatformátum) kifejezéssel, amely az adatok tartalmát jellemzi, a "szövegfájl" kifejezés egy fájlra vonatkozik, és az ilyen adatokat tároló tárolóként jellemzi.
A szöveges fájl karaktersorozatot tartalmaz (többnyire nyomtatott karakterek , amelyek egyik vagy másik karakterkészlethez tartoznak ). Ezeket a karaktereket általában sorokba csoportosítják ( angol vonalak, sorok ). A modern rendszerekben a sorokat sorelválasztóval választják el , míg korábban a karakterláncokat állandó vagy változó hosszúságú rekordokként tárolták (lásd: Lyukkártya ). Néha egy szövegfájl vége (különösen, ha a fájlrendszer nem tárol információt a fájl méretéről) egy vagy több speciális karakterrel is meg van jelölve, amelyeket fájlvégjelzőként ismerünk .
Előnyök:
Hibák:
A szöveges fájlokat egyszerűségük miatt gyakran használják szolgáltatási információk (például naplók ) tárolására: mivel a szöveges fájl végére új adatok hozzáadásának művelete nem igényel jelentős számítási erőforrást, függetlenül a már rendelkezésre álló fájl méretétől. és a hozzáadott szöveges adatok típusa, a szöveges naplófájlok karbantartása általában hatékonyan és észrevehetetlenül történik a felhasználó és más alkalmazások számára (a lemezterület kimerüléséig).
A szövegformátum sok speciálisabb formátum alapjául szolgál (pl . .ini , SGML , HTML , XML , TeX , programozási nyelv forráskódja ). Ezen formátumok némelyikében bizonyos karakterkombinációk használhatók szövegjelölésként. Ebben az esetben a fájl formázott szöveget tud tárolni, amelyben a karakterekhez további betűtípus, stílus, méret stb. is megadható (például Rich Text Format , HTML ).
DOS , macOS és Windows rendszeren az egyszerű szöveges fájlok általában a .txt kiterjesztést használják . A szövegfájlok azonban lehetnek bármilyen más kiterjesztéssel vagy anélkül. Például a programok forráskódjait általában a programozási nyelvnek megfelelő kiterjesztésű fájlokban tárolják ( .java , .bas , .pas , .c ).
A formázott szöveget (jelöléssel ellátott szöveg) általában a formátumnak vagy jelölőnyelvnek megfelelő kiterjesztésű fájlokban tárolják - .rtf , .htm , .html .
Történelmileg a 7 bites ASCII karakterkészletet , valamint a 8 bites EBCDIC -et és a különböző ASCII-kiterjesztéseket használták szövegfájlok kódolására . A 8 bites kódlapokon elterjedt az ASCII-nek megfelelő karakterek használata a kódtábla első felében.
A 8 bites szövegábrázolás előnye a programozási egyszerűség, valamint a bájtsorrenddel vagy a gépi szóhossz - problémáktól való függetlenség . Hátránya a nagyszámú különböző szabvány, ami összeférhetetlenséghez vezethet.
A Unicode szöveges fájlok használata, bár alapvetően megoldja a „kódolási problémát”, és szabványosítja a vezérlőkarakterek használatát, saját problémákat okoz. A legtöbb modern rendszerben az adatfolyamban az információ oszthatatlan egysége egy bájt (8 bit) , amelyhez több karakter szükséges egy Unicode karakter kódolásához. A megoldás az inkompatibilis UTF-8 rendszerek és az UTF-16 két verziójának használata (UTF-16LE és UTF-16BE ellentétes végződéssel ) . Néha egy speciális marker karakter (U+FEFF [1] ) kerül a fájl elejére, amely lehetővé teszi a formátum egyértelmű felismerését. Az UTF-8 előnye, hogy visszafelé kompatibilis az ASCII-vel, de az UTF-8 programozott szövegfeldolgozását bonyolítja a változó karakterméret. Ezenkívül a Unicode szövegek még redundánsabbak , mint a 8 bitesek.
A különböző operációs rendszereknek megvan a saját módja az újsorok és a fájlvégek megjelenítésének. UNIX - ban a soremelés egyetlen LF-karakterből áll (0xA kód), Mac OS -en (de nem macOS -en) egy CR-karakterből (0xD-kód), DOS -ban és Windows-ban pedig a soremelés sorozatként van kódolva. két karakterből áll: CR és LF.
Ezt az eltérést az írógépek működési elvei diktálják: új sorba lépéshez vissza kell tenni a kocsit a sor elejére ( kocsi vissza ), majd egy sorral el kell forgatni a dobot ( soremelés ). Nyomtatón történő nyomtatáskor az egyik és a másik karakter elkülönülhet egymástól (például egy sor kijelölése kétszeri nyomtatással, vagy a dob több sornyi görgetése), de ez nem szükséges szöveges fájlokban.
A megnevezetteken kívül a szöveges fájlokban olyan karakterek találhatók, mint a táblázatos (9-es kód) és az oldalhúzás (0xC kód). Ez utóbbit használták a régi szövegszerkesztők, mint például a LEXICON , valamint a nyomtatón történő nyomtatásra szánt fájlokban.
eszközök és dokumentumok ) | E-könyvek (|
---|---|
Készülék sorozat | |
Fájlformátumok | |
Katalógusok | |
Könyvtárak | |
Lásd még |