Szöveges adatok

A szöveges adatok ( szövegformátum is ) a karakterlánc típusú információk (vagyis nyomtatott karakterek sorozata ) megjelenítése egy számítástechnikai rendszerben . A MIME -ben az így kódolt adatok a típusnak felelnek meg text/plain.

A szöveges adatokat gyakran szűkebb értelemben értik - bármilyen nyelvű ( formális vagy természetes ) szövegként , amelyet egy személy elolvashat és megérthet.

A szövegformátum ellentétes a " bináris adatokkal ", amelyekben az információ tetszőleges módon van kódolva, nem emberi észlelésre tervezték.

A legtöbb számítógépes hardver és szoftver esetében nem számít, hogy az adatok szövegesek. Sok hálózati protokollt azonban úgy terveztek, hogy csak szöveges adatokkal működjön, és nem képesek tetszőleges bájtsorozat kezelésére. Ezenkívül egyes programok eltérően dolgozzák fel a szöveges és bináris adatokat, és vannak olyanok, amelyek kifejezetten szöveges adatok feldolgozására szolgálnak. A szöveges adatok létrehozására és szerkesztésére szolgáló programokat szövegszerkesztőknek nevezzük .

Szerkezet

A szöveges adat általában a karakterek egy részhalmazának sorozata, amely csak nyomtatott karaktereket ( betűk , számok , írásjelek ) és néhány vezérlőkaraktert ( szóközök , tabulátorok , újsorok) tartalmaz. Vannak olyan módszerek (például UUENCODE vagy Base64 ), amelyek lehetővé teszik tetszőleges formátumú adatok kódolását szöveges formátumban, amelyet gyakran használnak bináris adatok kódolására.

A tartalom emberi megértésének követelménye további redundanciát jelent az adatok megjelenítésében. Például a 123-as számot, amelynek kódolásához elég egy 8 bites bájt, szöveges formában több digitális karakter kódolja – például a decimális számrendszerben ehhez három számjegyre ("123") van szükség, binárisan .  - hét számjegy ("1111011" ), hexadecimálisan  - kettő ("7B").

A szövegformátum nem teszi lehetővé szövegformázási parancsok használatát, betűtípus-attribútumok kezelését, tartalom megjelölését [1] .

Sortörés

A szöveges adatok sorokra oszthatók. Egyes operációs rendszerekben (főleg a UNIX családban ) a sortörés egy 10-es kóddal van kódolva az ASCII táblában (név - Line Feed, LF), másokban (például MS-DOS és Microsoft Windows esetén ) - egy pár vezérlőkarakter 13-as és 10-es kóddal (Carriage Return and Line Feed, CR/LF). Mac OS (de nem Mac OS X ) rendszeren a felosztás egyetlen karakterrel, a 13 - as kóddal van kódolva.

Ezt a vezérlőkarakter vagy -karakterek szerinti felosztást az írógépek működése határozza meg , amelyeken keresztül egyes korai számítógépekben a bevitel történt - az ottani beviteli pozíciót a papír görgőjének helyzete, a görgő elfordítása és a következő sorra váltás jelezte. egy vagy két billentyű vagy kar lenyomása szükséges.

Ezenkívül sortörő karaktereket használtak a mechanikus nyomtatók vezérlésére (amelyek lehetnek ugyanazok az írógépek, mint a bevitelhez) – az LF karakter hatására a papírtekercs gördült, a CR karakter pedig a nyomtatókocsi visszatérését (ahol voltak) a sor eleje. Innen a jelek neve – angol.  Line Feed (soremelés) és angol nyelven.  Kocsi vissza .

Egyes platformokon a sortörés másként történt - a szöveget rögzített hosszúságú rekordok sorozataként mutatták be, amelyeknél a rövidebb sorokat a szükséges számú szóközzel egészítették ki. Ez megfelelt az adatok lyukkártyákon való megjelenítésének , amely eszközként szolgált a rögzített szélességű adatok (például 80 pozíció - oszlopok) bevitelére, sőt tárolására.

Használat

A szöveges adatok használatának fő célja a "közös nevező", függetlenség az egyes programoktól, amelyek saját kódolást vagy formázást igényelnek, és nem kompatibilisek más programokkal. A szöveges fájlok (szöveges formátumú fájlok) bármely szövegszerkesztőben megnyithatók, olvashatók és szerkeszthetők, például MS-DOS Editor ( DOS ), Notepad ( Windows ), ed , vi és vim ( UNIX , Linux ), SimpleText segítségével. , TextEdit ( Mac OS X ) és így tovább. Más programok általában szintén képesek szöveges adatokat olvasni és importálni. Szöveges fájlokat is megtekinthet beépített parancsokkal ( typeDOS-ban és Windows-ban) és segédprogramokkal ( catUnix-ban).

A szövegformátumot gyakran használják olyan adatok megjelenítésére, amelyek önmagukban nem tiszta szöveg. Ebben az esetben más adatformátumok "ráépülnek" a sima szövegre, ennek érdekében vezérlőszerkezeteiket nyomtatott szavakkal és írásjelekkel fejezik ki. Ez két kényelmi szintet biztosít az adatokkal való munkavégzéshez – például a HTML és XML adatok megtekinthetők és szerkeszthetők WYSIWYG formázással , vagy megnyithatja őket egy normál szövegszerkesztőben, és hozzáférhet a jelölőnyelv összes finomságához. Ha az adatokat „bináris” formában tárolják (mint például a Microsoft Word korábbi verzióiban ), gyakran lehetetlen velük dolgozni más programokban (a formátumszerkezetre vonatkozó információk hiánya miatt), ill. akár ugyanazon program különböző verzióiban.

A legtöbb programozási nyelv szöveges formátum használatát feltételezi a program forráskódjához . Ez többek között lehetővé teszi, hogy különféle segédprogramokat alkalmazzon a forráskódokhoz átalakításokhoz, formázásokhoz, kereséshez, statisztikákhoz, elemzésekhez stb.

Sok program konfigurációs fájlja szöveges formátumot használ , még akkor is, ha számokat és bináris kapcsolókat tartalmaz (igen/nem). Ez némileg bonyolítja a programokat, mivel a szöveges adatokat belső formátumba kell konvertálni, és fordítva, de lehetővé válik a konfiguráció manuális szerkesztése, a program konfigurációs eszközeinek használata nélkül.

A szöveg adatformátumban tárolt szöveg egy bizonyos részére nehéz rámutatni. Sorszámok vagy karakterszámok [2] használhatók mutatóként .

Kapcsolódó kifejezések

A plaintext kifejezést ( eng.  plaintext ; nagyon hasonlít az eng.  plain text kifejezésre, amelyet szöveges adatok jelölésére használnak) széles körben használják a kriptográfiában , és minden titkosítatlan adatot jelent, beleértve a nem szöveges adatokat is. Az egyértelmű szöveg kifejezést a kriptográfiában is használják, és titkosítatlan adatot jelent, amely szintén érthető az ember számára, és nincs védve a „lehallgatástól” az átvitel során.  

Jegyzetek

  1. RFC 2046 "Az egyszerű szöveg nem ad és nem tesz lehetővé formázási parancsokat, font attribútum-specifikációkat, feldolgozási utasításokat, értelmezési utasításokat vagy tartalomjelölést."
  2. Forrás . Letöltve: 2016. szeptember 17. Az eredetiből archiválva : 2016. április 20.

Linkek