RačunariInformaciona tehnologija

Unicode kodiranje: kodiranje standardnog karaktera

Svaki korisnik Interneta u pokušaju da konfiguriše neku od svojih funkcija čak jednom je na displeju vidio riječ "Unicode" napisano latiničnim slovima . Šta je to, naučićete čitajući ovaj članak.

Definicija

Unicode kodiranje je standard koji kodira karakter. Predložila ga je neprofitna organizacija Unicode Inc. 1991. godine. Standard je dizajniran tako da kombinira što više različitih tipova simbola u jednom dokumentu. Stranica, koja se kreira na njegovoj osnovi, može sadržavati slova i hijeroglifa sa različitih jezika (od ruskog na korejski) i matematičkih znakova. Međutim, svi likovi u ovom kodiranju se prikazuju bez problema.

Razlozi za stvaranje

Jednom, pre nego što se pojavio sistem Unicode, kodiranje je izabrano na osnovu želje autora dokumenta. Iz tog razloga, često čitajući jedan dokument, morali ste da koristite različite tabele. Ponekad je to trebalo uraditi nekoliko puta, što je znatno komplikovalo život običnog korisnika. Kao što je već pomenuto, rešenje za ovaj problem 1991. godine predložila je neprofitna organizacija Unicode Inc., koja je predložila novi tip kodiranja karaktera. Pozvan je da kombinuje moralno zastarele i raznovrsne standarde. "Unicode" - kodiranje, što je omogućilo da u tom trenutku postane nezamislivo: da se napravi alat koji podržava veliki broj znakova. Rezultat je prevazišao mnoge očekivanja - pojavili su se dokumenti koji su istovremeno sadržavali i engleski i ruski tekst, latinski i matematički izraz.

Ali stvaranju jedinstvenog kodiranja prethodila je potreba za rješavanjem većeg broja problema koji su nastali zbog velikog broja standarda koji su već postojali u to vrijeme. Najčešće su:

  • Elven slova, ili "krakozyabry";
  • Ograničeni skup znakova;
  • Problem kodiranja konverzije;
  • Dupliranje fontova.

Kratka istorijska digresija

Zamislite da je dvorište 80-te godine. Računarska tehnologija nije toliko rasprostranjena i izgleda drugačije od danas. U to doba, svaki operativni sistem na svoj način je jedinstven i svaki od entuzijasta je finalizovan za specifične potrebe. Potreba za razmjenom informacija pretvara se u dodatnu reviziju svega u svijetu. Pokušaj čitanja dokumenta kreiranog pod drugim operativnim sistemom često prikazuje neobičljiv skup znakova na ekranu, a počinju igre sa kodiranjem. Nije uvek moguće to brzo učiniti, a ponekad i traženi dokument može biti otvoren za pola godine, pa čak i kasnije. Ljudi koji često razmjenjuju informacije stvaraju pretvorbene tabele za sebe. A ovde rad na njima otkriva zanimljiv detalj: potrebno ih je stvoriti u dva pravca: "od mog do tvoje" i nazad. Da bi napravio banalnu inverziju računanja, mašina ne može, jer u desnoj koloni izvorni kod, au levoj koloni - rezultat, ali na bilo koji način naprotiv. Ako je u dokumentu bilo potrebno da se koriste neki posebni znakovi, prvo su trebali biti dodati, a zatim i objasnio partneru šta je to potrebno da se ovi likovi ne pretvore u "karkozyabry". I ne zaboravimo da smo za svako kodiranje morali razviti ili primeniti sopstvene fontove, što je dovelo do stvaranja velikog broja duplikata u operativnom sistemu.

Zamislite takođe da ćete na fonti videti 10 komada identičnih Times New Roman sa malim notama: za UTF-8, UTF-16, ANSI, UCS-2. Da li shvataš da je razvoj univerzalnog standarda bio hitna nužda?

"Otac-kreatori"

Poreklo stvaranja Unicode trebalo bi da se traži 1987. godine, kada je Joe Becker iz Xerox-a, zajedno sa Lee Collins-om i Mark Davis iz Apple-a, započeo istraživanje praktične kreacije univerzalnog skupa znakova. U avgustu 1988. Joe Becker je objavio nacrt predloga za stvaranje 16-bitnog međunarodnog višejezičnog kodnog sistema.

Nekoliko mjeseci kasnije, radna grupa Unicode proširena je na Ken Vistler i Mike Kernegan iz RLG, Glenn Wright iz Sun Microsystems i nekoliko drugih stručnjaka, što je omogućilo završetak rada na preliminarnoj formaciji jedinstvenog standarda kodiranja.

Opšti opis

Unicode se zasniva na konceptu simbola. Ovom definicijom podrazumevamo apstraktni fenomen koji postoji u konkretnom obliku pisanja i realizuje kroz grafeheme (njene "portrete"). Svaki znak je postavljen u Unicode jedinstvenim kôdom koji pripadaju određenom bloka standarda. Na primjer, grahma B je na engleskom i ruskom abecedi, ali u Unicode-u odgovara 2 različita karaktera. Oni se pretvaraju u mala slova, to jest, svaki od njih je opisan pomoću ključa baze podataka, skupa svojstava i punog imena.

Prednosti Unicode

Od ostalih saputnika, Unicode kodiranje karakteriše ogromna rezerva karaktera za "šifrovanje" karaktera. Činjenica je da su njegovi prethodnici imali 8 bita, tj. Podržali su 28 karaktera, ali novi razvoj je imao čak 216 karaktera, što je bio veliki korak napred. To je omogućilo kodiranje skoro svih postojećih i distribuiranih alfabeta.

Sa pojavom Unicodea nije bilo potrebe za korištenjem tabela konverzije: kao jedinstveni standard, jednostavno je poništio njihovu potrebu. Isto tako, "krakozyabry" - jedinstveni standard ih je učinio nemogućim, kao i eliminisao potrebu za kreiranjem duplih fontova.

Unicode razvoj

Naravno, napredak ne stoji i prošlo je 25 godina od prve prezentacije. Međutim, Unicode kodiranje tvrdoglavo održava svoj položaj u svijetu. U mnogim aspektima ovo je postalo moguće zahvaljujući činjenici da je postalo lako implementirano i šireno, jer su ga prepoznali od strane programera (plaćenog) i open source softvera.

U ovom slučaju, nije neophodno vjerovati da danas imamo istu Unicode kodiranje kao pre četvrt veka. Trenutno se njegova verzija promenila na 5.x.x, a broj kodiranih znakova povećao se na 231. Iz mogućnosti da se koristi veći broj znakova odbio je i dalje održavati podršku za Unicode-16 (kodiranja gdje je maksimalni broj ograničen na 216). Od svog osnivanja i do verzije 2.0.0, "Unicode-standard" je povećao broj karaktera koji je uključio, gotovo 2 puta. Rast mogućnosti je nastavljen iu narednim godinama. Do verzije 4.0.0 već je bilo potrebno povećati standard sam, što je učinjeno. Kao rezultat, Unicode je dobio oblik u kojem ga danas znamo.

Šta još ima u Unicode-u?

Pored velikog, sve većeg broja karaktera, Unicode-kodiranje tekstualnih informacija ima još jednu korisnu funkciju. Govorimo o tzv. Normalizaciji. Umjesto skrolovanja čitavog simbola dokumenta po karakteru i zamjene odgovarajućih ikona iz tabele podudaranja, koristi se jedan od postojećih algoritama normalizacije. O čemu pričamo?

Umesto trošenja računarskih resursa na redovnu proveru istog simbola, koji mogu biti slični u različitim alfabetom, koristi se poseban algoritam. Omogućava vam da izvadite slične znakove u odvojenom grafikonu tabele za pregled i već se pozovete na njih, a ne više puta provjerite sve podatke.

Postoje četiri takva algoritma razvijena i implementirana. U svakom od njih, transformacija se odvija prema strogo definisanom principu, koji se razlikuje od drugih, stoga nije moguće nazvati jedan od njih najefektivniji. Svaki je razvijen za specifične potrebe, uveden i uspešno iskorišćen.

Širenje standarda

Za 25 godina svoje istorije, Unicode kodiranje verovatno je dobilo najveću distribuciju na svetu. Prema ovom standardu, prilagođeni su i programi i web stranice. Širokost prijave može se reći činjenicom da Unicode danas koristi više od 60% Internet resursa.

Sada znate kada se pojavio standardni "Unicode". Ono što jeste, takođe znate i moći ćete ceniti cjelokupnu vrijednost pronalaska koju je napravila grupa stručnjaka iz Unicode Inc. Pre više od 25 godina.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 bs.birmiss.com. Theme powered by WordPress.