Karakterkészlet

Az oldal jelenlegi verzióját még nem ellenőrizték tapasztalt közreműködők, és jelentősen eltérhet a 2017. május 15-én felülvizsgált verziótól ; az ellenőrzések 17 szerkesztést igényelnek .

Karakterkészlet ( angol  karakterkészlet ) - egy táblázat, amely meghatározza az alfabetikus karakterek (általában szöveges elemek: betűk, számok, írásjelek) véges halmazának kódolását . Egy ilyen táblázat minden karaktert egy másik ábécé egy vagy több karakterének sorozatával párosít (pontok és kötőjelek a morze-kódban , jeljelzők a haditengerészetben , nullák és egyesek ( bitek ) a számítógépben).

Számítógépes karakterkészlet

A számítógépben a karakterek általában egy vagy több bájtba vannak kódolva (nyolc bites csoportok).

Bár az RFC 2278 internetes szabvány által legitimált "karakterkészlet" ( eng.  character set, charset ) kifejezés ma már talán a legmérvadóbb kifejezés, az ezt megelőző "kódolás" kifejezést ( eng. encoding ) még mindig használják. szinonimája, különösen a Java [1] , a Perl [2] és az XSLT [3] programozási nyelvekben , valamint a HTML -ben [4] .  

Gyakran a "karakterkészlet" kifejezés helyett a " kódlap " kifejezést használják helytelenül, ami valójában egy egybájtos kódolású karakterkészlet speciális esetét jelenti.

Jelenleg háromféle kódolást használnak: ASCII -kompatibilis, EBCDIC -kompatibilis és Unicode - alapú 16-bites kódolás, túlnyomórészt az előbbi dominál. Az Unicode UTF-8 reprezentációja kompatibilis az ASCII-vel. Az EBCDIC - alapú kódolásokat (például a DCOI -t ) csak néhány nagyszámítógépen használják . Kezdetben minden operációs rendszer egy karakterkészletet használt. Most a használt karakterkészletek szabványosítottak [5] , csak a hagyományok szerint függenek az operációs rendszer típusától, és a területi beállítások szerint vannak beállítva .

A Wikipédia és más Wikimedia Foundation projektek UTF-8 Unicode-ot használnak.

A modern 8 bites számítási platformokat kis mennyiségű RAM és ROM jellemzi; az ilyen termékek többbyte-os kódolása nem kapott jelentős terjesztést. Ennek oka nemcsak a többbájtos kódolásban megjelenített szöveges adatok nagyobb mennyisége, hanem a további karakterek grafikus megjelenítésének tárolására szolgáló „extra” memória hiánya, valamint az ilyen karakterláncok feldolgozási nehézségei is. A következő szabványos egybájtos kódolásokat használják manapság általában:

Automatikus kódolás felismerés

Sok modern szövegszerkesztő és böngésző rendelkezik automatikus kódolásfelismerő funkcióval, de ez nem mindig ad megfelelő eredményt. Néha előfordul, hogy például a parancssorba vagy egyes programokban beírt szöveget helytelenül dekódolják, és a normál szavak helyett érthetetlen karakterkészletet kapunk. Számos online működő szövegdekóder segíthet megbirkózni az ilyen szövegek olvasásával.

Az egybájtos kódolásoknál figyelembe kell venni azt a tényt, hogy a különböző betűk használatának gyakorisága nagymértékben változik (például oroszul az „o”-t gyakran használják, de az „ъ”-t ritkán). Ezért a szöveg nyelvének ismeretében könnyen választhat olyan kódolást, amelyben a bájtok gyakorisága jobban megegyezik az adott nyelv betűinek gyakoriságával. [6]

Egy alternatív nézőpont szerint az ilyen heurisztikus algoritmusok a szövegkódolás meghatározására károsak, mivel a modern információs technológiáknak megvannak az eszközei arra, hogy a szöveget egyértelműen összeillessék a kódlapjával (lásd például MIME ). A heurisztikus elemzők széles körben elterjedt használata alacsony minőségű programok használatát ösztönzi a szabványokat sértő szöveges adatok létrehozására.

Gyakori kódolások

Lásd még

Linkek

Jegyzetek

  1. A főbb "kódolások" listája a Java SE 6 kézikönyvben . Hozzáférés dátuma: 2008. szeptember 27. Az eredetiből archiválva : 2008. december 16.
  2. Vita a "kódolásokról" a Perl nyelvi dokumentációban . Letöltve: 2008. szeptember 27. Az eredetiből archiválva : 2008. október 6..
  3. Vita a "kódolásokról" az XSLT dokumentációban . Letöltve: 2008. október 5. Az eredetiből archiválva : 2017. augusztus 13..
  4. A "kódolás" és a "karakterkészlet" kifejezések közötti kapcsolat megvitatása a HTML-dokumentációban . Letöltve: 2008. október 11. Az eredetiből archiválva : 2008. október 26..
  5. A karakterkészlet specifikációi az IANA webhelyén . Letöltve: 2008. szeptember 27. Az eredetiből archiválva : 2004. július 16..
  6. Univerzális dekóder - Cirill átalakító . Hozzáférés dátuma: 2014. december 4. Az eredetiből archiválva : 2014. december 28.