UTF-8

A Wikipédiából, a szabad lexikonból.

Az UTF-8 (8-bit Unicode Transformation Format, 8 bites Unicode átalakítási formátum) egy veszteségmentes, változó hosszúságú Unicode karakterkódolási eljárás, melyet Rob Pike és Ken Thompson készített. Bármilyen Unicode karaktert képes reprezentálni, ugyanakkor visszafelé kompatibilis a 7 bites ASCII szabvánnyal. Az UTF-8 kódolás különösen alkalmas 8 bites átviteli közegek számára, mint amilyen az e-mail vagy a weblapok.

Az angolszász, majd az európai országokból kiindulva az ASCII után először az úgynevezett Latin-1 kódolás terjedt el, ami tartalmazza az összes angol nyelvhez szükséges betűt, illetve számos európai nyelv betűit, de például a magyar „ő” és „ű” betűket nem (ezek helyett – helytelenül – gyakran használják a hullámos illetve a kalapos betűket: û ô vagy õ). Magyarhoz lehet azonban a Latin-2 (kelet európai) kódolást is használni, ami ismeri az ő és ű betűinket, de nem ismer más fontos betűket, például a cirill, görög, vagy például a kínai, örmény, indiai, arab és héber betűket. A Unicode és az UTF-8 kódolás egyszerre támogatja mindezen karakterek megjelenítését, és így minden nyelv egységes kódolást tud használni, megelőzve a betűk nem tervezett „átalakulását”.

Az UTF-8 egy Unicode jel kódolására 1-4 bájtot használ, a jel elhelyezkedésétől függően. Az US-ASCII kódolás szerinti karaktereket például egyetlen UTF-8 byte kódolja (ezek a Unicode U+0000 - U+007F tartományban helyezkednek el), az európai ékezetes betűket pedig két UTF-8 bájt.

Ez a kódolás nagyon elterjedt, mivel zökkenőmentes átmenetet biztosít az ASCII vagy ISO alapú rendszerekből. Emellett a kódolt végeredmény jól tömöríthető.

[szerkesztés] Hátrányai

Gazdaságtalan európai és más latin betűs (pl. török) nyelvekre, melyeket az ISO kódok teljesen lefednek.

[szerkesztés] Elterjedése

Meglehetősen elterjedt Linux rendszereken, de a Microsoft Windows rendszer XP-től fölfelé is teljeskörűen támogatja. Az IETF (Internet Engineering Task Force) minden Internet protokolltól megköveteli, hogy az általa használt kódolások között szerepeljen az UTF-8. Az IMC (Internet Mail Consortium) javaslata szerint minden e-mail kliensnek meg kell tudni jeleníteni az UTF-8 kódolású leveleket, és létre kell tudnia hozni azokat.

[szerkesztés] Külső hivatkozások