Karakter kodlaması terminolojisinde, kod noktası veya kod konumu kod uzayını oluşturan sayısal değerlerin her birine verilen isimdir. Kod noktalarının karşılık geldiği karakterler genelde çizgisel karakterler olsa da zaman zaman biçimlendirme karakterleri de olabilmektedir (satır sonu karakteri gibi).
Örneğin ASCII karakter kodlama düzeni 016'dan 7F16'ya kadar olan 128 sayıyı içerir. Genişletilmiş ASCII ise 016'dan FF16'ya kadar olan 256 sayıyı içerir. Unicode ise 016 ile 10FFFF16 aralığındaki 1.114.112 kod noktasını içermektedir. Unicode kod uzayı on yedi adet düzleme (temel çokdilli düzlem ve 16 tamamlayıcı düzlem) bölünmüştür. Bu düzlemlerin her biri 65.536 (= 216) kod noktası bulundurur. Dolayısıyla Unicode kod uzayının toplam uzunluğu 17 × 65.536 = 1.114.112'dir.
Tanım
Unicode'un ortaya çıkışıyla şu iki kavramın birbirinden ayırt edilmesi ihtiyacı hissedildiğinden kod noktası kavramı kullanılmaya başlanmıştır:
- metinlerin depolanmaya ve taşınmaya uygun bir şekilde, bir karakter kodlamasıyla bit dizileri şeklinde kodlanmış biçimleri
- ekrana çizilen şekillerle (glif) ifade edilen karakterlerin soyut temsilcisi, bu temsilciye atanan ve karakter kodlamalarının kodlamada esas aldığı sayı.
Bunlardan ikincide belirtilen sayılar kod noktası adını almıştır. Eskiden bu iki kavram için ayrı bir ifade bulunmamaktaydı. Çünkü ASCII ve genişletilmiş ASCII kodlamalarında kodlanmış sayı ve kod noktaları aynı sayılardı. Ancak Unicode sisteminde kodlanmış sayılar kod noktalarından ayrıdır. Aynı karakterin kodlanmasıyla elde edilen sayı kullanılan kodlama biçimine göre farklı olabilecekken aynı karakterin kod noktası Unicode'da her zaman aynıdır. Yani kod noktası kodlama türünden bağımsızdır. Bu ayrım bir başka deyişle şu şekilde de ifade edilebilir: Unicode'da karakter kodlamaları kod noktalarını kodlayarak bellekte depolanabilecek veya veri olarak aktarılabilecek bit dizilerine dönüştürürler. Unicode öncesi kodlama sistemleri ise doğrudan karakterleri kodlarlar, yani karakterleri bir sayıyla eşleştirip bu sayıyı iki tabanına dönüştürüp bitlerle yazarak bilgisayar sistemlerinde temsil etmiş olurlar. Unicode'da ise karakterler için tüm kodlama biçimleri tarafından ortak olarak esas alınacak sayılar (kod noktaları) belirlenmiş ve her bir karakter bir sayıyla eşleştirilmiştir. Farklı kodlama biçimleri bu kod noktalarını farklı şekilde kodlayarak iki tabanına dönüştürebilirler. Böylelikle karakterden bit dizilerine giden süreç şu iki aşamaya bölünmüştür:
- Soyut karakterlerin belirlenmesi ve her birine bir kod noktası tahsis edilmesi
- Sabit uzunlukta bit dizileri kullanan (8-bit uzunluğundaki baytlar gibi) bilgisayar sistemlerinin kod noktalarını depolayabilmesi ve taşıyabilmesi için kod noktalarının belirli bir yöntemle ikil sayılara dönüştürülmesi.
Birinci aşamanın öngördüğü kod noktası tahsis sürecini Unicode Consortium yürütmektedir. Karakterler ve kendilerine atanan kod noktaları Unicode tarafından Code Chart adı verilen belgeler halinde tablolar halinde yayınlanmaktadır. Yeni karakter eklemeleri yapıldıkça bu tablolar güncellenmektedir.
İkinci aşamada öngörülen süreç ise karakter kodlama biçimlerince gerçekleştirilmektedir. Bu aşamada farklı yöntemlerin olması ve her birinin kendine göre avantaj ve dezavantajlarının bulunması, metinsel verinin kullanıldığı sistemin teknik özelliklerine göre yapılacak değerlendirme sonucunda uygun kodlama seçilip kullanılabilmesini sağlamaktadır. Ancak günümüzde en yaygın olarak kullanılan karakter kodlaması UTF-8'dir.
Unicode'da kodlama esnasında ortaya çıkan belirli uzunluktaki bit dizilerine (kod birimi) denir. UCS-4 kodlamasında her kod noktası 4 baytlık ikil sayılarla kodlanırken UTF-8 kodlamasında kod noktaları birden dörde kadar değişen uzunlukta bayt dizileriyle kodlanmaktadır. Kod noktaları soyut karakterlere atanan sayılardır. Soyut karakterler grafiksel bir görüntü belirtmeyip yalnızca metinsel verinin bir birimi olarak düşünülmüştür. Yani grafiksel olarak farklı şekillerde gösterimi mümkün olan karakterler aynı soyut karakterle temsil ediliyor olabilirler ve bu durumda hepsinin kod noktası aynı olur. Kod noktalarının çoğu ileride yeni karakterlere tahsis edilmek için ayrılmıştır. Bununla beraber bazı kod noktaları doğrudan karakterlere tahsis edilmeyip başka amaçlara hizmet etmektedirler ( kodlamasında kullanılan yedek çiftler gibi).
Kod noktalarıyla temsil ettikleri soyut karakter arasındaki ayrım Unicode'da pek dile getirilmemiştir; ancak başka karakter kodlama düzenlerinde kolayca fark edilir durumdadır. Kod sayfası olarak adlandırılan çoğu karakter kodlama düzeni aynı kod uzayını kullanmalarına rağmen bu kod uzayındaki kod noktalarını farklı karakterlere tahsis etmişlerdir. Örneğin genişletilmiş ASCII setlerinin hepsi 256 sayılık aynı kod uzayını kullanmasına rağmen bazı kod noktalarını farklı karakterlere atamış olmalarıyla değişiklik gösterirler.
Unicode'un bu diğer kodlama düzenlerinden farkı ise tüm karakterleri tek kod uzayında birleştirerek aynı kod uzayının farklı karakterler için kullanılması zorunluluğuna çözüm olmasıdır.
Ayrıca bakınız
Notlar
wikipedia, wiki, viki, vikipedia, oku, kitap, kütüphane, kütübhane, ara, ara bul, bul, herşey, ne arasanız burada,hikayeler, makale, kitaplar, öğren, wiki, bilgi, tarih, yukle, izle, telefon için, turk, türk, türkçe, turkce, nasıl yapılır, ne demek, nasıl, yapmak, yapılır, indir, ücretsiz, ücretsiz indir, bedava, bedava indir, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, resim, müzik, şarkı, film, film, oyun, oyunlar, mobil, cep telefonu, telefon, android, ios, apple, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, pc, web, computer, bilgisayar
Karakter kodlamasi terminolojisinde kod noktasiveya kod konumu kod uzayiniolusturan sayisal degerlerin her birine verilen isimdir Kod noktalarinin karsilik geldigi karakterler genelde cizgisel karakterler olsa da zaman zaman bicimlendirme karakterleri de olabilmektedir satir sonu karakteri gibi Ornegin ASCII karakter kodlama duzeni 016 dan 7F16 ya kadar olan 128 sayiyi icerir Genisletilmis ASCII ise 016 dan FF16 ya kadar olan 256 sayiyi icerir Unicode ise 016 ile 10FFFF16 araligindaki 1 114 112 kod noktasini icermektedir Unicode kod uzayi on yedi adet duzleme temel cokdilli duzlem ve 16 tamamlayici duzlem bolunmustur Bu duzlemlerin her biri 65 536 216 kod noktasi bulundurur Dolayisiyla Unicode kod uzayinin toplam uzunlugu 17 65 536 1 114 112 dir TanimUnicode un ortaya cikisiyla su iki kavramin birbirinden ayirt edilmesi ihtiyaci hissedildiginden kod noktasi kavrami kullanilmaya baslanmistir metinlerin depolanmaya ve tasinmaya uygun bir sekilde bir karakter kodlamasiyla bit dizileri seklinde kodlanmis bicimleri ekrana cizilen sekillerle glif ifade edilen karakterlerin soyut temsilcisi bu temsilciye atanan ve karakter kodlamalarinin kodlamada esas aldigi sayi Bunlardan ikincide belirtilen sayilar kod noktasi adini almistir Eskiden bu iki kavram icin ayri bir ifade bulunmamaktaydi Cunku ASCII ve genisletilmis ASCII kodlamalarinda kodlanmis sayi ve kod noktalari ayni sayilardi Ancak Unicode sisteminde kodlanmis sayilar kod noktalarindan ayridir Ayni karakterin kodlanmasiyla elde edilen sayi kullanilan kodlama bicimine gore farkli olabilecekken ayni karakterin kod noktasi Unicode da her zaman aynidir Yani kod noktasi kodlama turunden bagimsizdir Bu ayrim bir baska deyisle su sekilde de ifade edilebilir Unicode da karakter kodlamalari kod noktalarini kodlayarak bellekte depolanabilecek veya veri olarak aktarilabilecek bit dizilerine donustururler Unicode oncesi kodlama sistemleri ise dogrudan karakterleri kodlarlar yani karakterleri bir sayiyla eslestirip bu sayiyi iki tabanina donusturup bitlerle yazarak bilgisayar sistemlerinde temsil etmis olurlar Unicode da ise karakterler icin tum kodlama bicimleri tarafindan ortak olarak esas alinacak sayilar kod noktalari belirlenmis ve her bir karakter bir sayiyla eslestirilmistir Farkli kodlama bicimleri bu kod noktalarini farkli sekilde kodlayarak iki tabanina donusturebilirler Boylelikle karakterden bit dizilerine giden surec su iki asamaya bolunmustur Soyut karakterlerin belirlenmesi ve her birine bir kod noktasi tahsis edilmesi Sabit uzunlukta bit dizileri kullanan 8 bit uzunlugundaki baytlar gibi bilgisayar sistemlerinin kod noktalarini depolayabilmesi ve tasiyabilmesi icin kod noktalarinin belirli bir yontemle ikil sayilara donusturulmesi Birinci asamanin ongordugu kod noktasi tahsis surecini Unicode Consortium yurutmektedir Karakterler ve kendilerine atanan kod noktalari Unicode tarafindan Code Chart adi verilen belgeler halinde tablolar halinde yayinlanmaktadir Yeni karakter eklemeleri yapildikca bu tablolar guncellenmektedir Ikinci asamada ongorulen surec ise karakter kodlama bicimlerince gerceklestirilmektedir Bu asamada farkli yontemlerin olmasi ve her birinin kendine gore avantaj ve dezavantajlarinin bulunmasi metinsel verinin kullanildigi sistemin teknik ozelliklerine gore yapilacak degerlendirme sonucunda uygun kodlama secilip kullanilabilmesini saglamaktadir Ancak gunumuzde en yaygin olarak kullanilan karakter kodlamasi UTF 8 dir Unicode da kodlama esnasinda ortaya cikan belirli uzunluktaki bit dizilerine kod birimi denir UCS 4 kodlamasinda her kod noktasi 4 baytlik ikil sayilarla kodlanirken UTF 8 kodlamasinda kod noktalari birden dorde kadar degisen uzunlukta bayt dizileriyle kodlanmaktadir Kod noktalari soyut karakterlere atanan sayilardir Soyut karakterler grafiksel bir goruntu belirtmeyip yalnizca metinsel verinin bir birimi olarak dusunulmustur Yani grafiksel olarak farkli sekillerde gosterimi mumkun olan karakterler ayni soyut karakterle temsil ediliyor olabilirler ve bu durumda hepsinin kod noktasi ayni olur Kod noktalarinin cogu ileride yeni karakterlere tahsis edilmek icin ayrilmistir Bununla beraber bazi kod noktalari dogrudan karakterlere tahsis edilmeyip baska amaclara hizmet etmektedirler kodlamasinda kullanilan yedek ciftler gibi Kod noktalariyla temsil ettikleri soyut karakter arasindaki ayrim Unicode da pek dile getirilmemistir ancak baska karakter kodlama duzenlerinde kolayca fark edilir durumdadir Kod sayfasi olarak adlandirilan cogu karakter kodlama duzeni ayni kod uzayini kullanmalarina ragmen bu kod uzayindaki kod noktalarini farkli karakterlere tahsis etmislerdir Ornegin genisletilmis ASCII setlerinin hepsi 256 sayilik ayni kod uzayini kullanmasina ragmen bazi kod noktalarini farkli karakterlere atamis olmalariyla degisiklik gosterirler Unicode un bu diger kodlama duzenlerinden farki ise tum karakterleri tek kod uzayinda birlestirerek ayni kod uzayinin farkli karakterler icin kullanilmasi zorunluluguna cozum olmasidir Ayrica bakinizUnicode Karakter kodlamasi GlifNotlar 26 Aralik 2015 tarihinde kaynagindan arsivlendi Erisim tarihi 4 Temmuz 2015 Code Charts Unicode Consortium 7 Temmuz 2015 tarihinde kaynagindan Erisim tarihi 5 Temmuz 2015