Karakterkészlet ( angol karakterkészlet ) - egy táblázat, amely meghatározza az alfabetikus karakterek (általában szöveges elemek: betűk, számok, írásjelek) véges halmazának kódolását . Egy ilyen táblázat minden karaktert egy másik ábécé egy vagy több karakterének sorozatával párosít (pontok és kötőjelek a morze-kódban , jeljelzők a haditengerészetben , nullák és egyesek ( bitek ) a számítógépben).
A számítógépben a karakterek általában egy vagy több bájtba vannak kódolva (nyolc bites csoportok).
Bár az RFC 2278 internetes szabvány által legitimált "karakterkészlet" ( eng. character set, charset ) kifejezés ma már talán a legmérvadóbb kifejezés, az ezt megelőző "kódolás" kifejezést ( eng. encoding ) még mindig használják. szinonimája, különösen a Java [1] , a Perl [2] és az XSLT [3] programozási nyelvekben , valamint a HTML -ben [4] .
Gyakran a "karakterkészlet" kifejezés helyett a " kódlap " kifejezést használják helytelenül, ami valójában egy egybájtos kódolású karakterkészlet speciális esetét jelenti.
Jelenleg háromféle kódolást használnak: ASCII -kompatibilis, EBCDIC -kompatibilis és Unicode - alapú 16-bites kódolás, túlnyomórészt az előbbi dominál. Az Unicode UTF-8 reprezentációja kompatibilis az ASCII-vel. Az EBCDIC - alapú kódolásokat (például a DCOI -t ) csak néhány nagyszámítógépen használják . Kezdetben minden operációs rendszer egy karakterkészletet használt. Most a használt karakterkészletek szabványosítottak [5] , csak a hagyományok szerint függenek az operációs rendszer típusától, és a területi beállítások szerint vannak beállítva .
A Wikipédia és más Wikimedia Foundation projektek UTF-8 Unicode-ot használnak.
A modern 8 bites számítási platformokat kis mennyiségű RAM és ROM jellemzi; az ilyen termékek többbyte-os kódolása nem kapott jelentős terjesztést. Ennek oka nemcsak a többbájtos kódolásban megjelenített szöveges adatok nagyobb mennyisége, hanem a további karakterek grafikus megjelenítésének tárolására szolgáló „extra” memória hiánya, valamint az ilyen karakterláncok feldolgozási nehézségei is. A következő szabványos egybájtos kódolásokat használják manapság általában:
Sok modern szövegszerkesztő és böngésző rendelkezik automatikus kódolásfelismerő funkcióval, de ez nem mindig ad megfelelő eredményt. Néha előfordul, hogy például a parancssorba vagy egyes programokban beírt szöveget helytelenül dekódolják, és a normál szavak helyett érthetetlen karakterkészletet kapunk. Számos online működő szövegdekóder segíthet megbirkózni az ilyen szövegek olvasásával.
Az egybájtos kódolásoknál figyelembe kell venni azt a tényt, hogy a különböző betűk használatának gyakorisága nagymértékben változik (például oroszul az „o”-t gyakran használják, de az „ъ”-t ritkán). Ezért a szöveg nyelvének ismeretében könnyen választhat olyan kódolást, amelyben a bájtok gyakorisága jobban megegyezik az adott nyelv betűinek gyakoriságával. [6]
Egy alternatív nézőpont szerint az ilyen heurisztikus algoritmusok a szövegkódolás meghatározására károsak, mivel a modern információs technológiáknak megvannak az eszközei arra, hogy a szöveget egyértelműen összeillessék a kódlapjával (lásd például MIME ). A heurisztikus elemzők széles körben elterjedt használata alacsony minőségű programok használatát ösztönzi a szabványokat sértő szöveges adatok létrehozására.
Karakterkódolások | |
---|---|
Történelmi kódolások | kiegészítő komp. szemafor (Makarov) morze Bodo MTK-2 comp. 6 bites SCP RADIX-50 EBCDIC KOI-7 ISO 646 |
modern 8 bites megjelenítés | szimbólumok ASCII nem ASCII 8 bites kódlapok cirill betűs KOI-8 Alapvető kódolás MacCyrillic ISO 8859 1 (lat.) 2 3 négy 5 (kir.) 6 7 nyolc 9 tíz tizenegy 12 13 tizennégy 15 (€) 16 ablakok 1250 1251 (kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM és DOS 437 850 852 855 866 "alternatív" MIC |
Többbájt | hagyományos DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 karakterlista cirill betűs |
felhasználói felület billentyűzetkiosztás locale soros fordítás betűtípus transzliteráció egyedi betűtípusok segédprogramok ikonv rekord |
Típusöntöde és típustervezés | |||||||||
---|---|---|---|---|---|---|---|---|---|
Fogalmak | |||||||||
Betűtípus szerkezete | |||||||||
Betűtípus jellemzői |
| ||||||||
Az ábécé betűtípusainak osztályozása |
| ||||||||
Betűstílusok | |||||||||
Egységek | |||||||||
számítógépes tipográfia | |||||||||
Lásd még Kiadó Nyomda Tipográfia Készlet Elrendezés Nyomtatás |