Unicode



Pada pertengahan pertama tahun 1980-an Xerox Corporation berhasil mengimplementasikan hasil penelitiannya mengenai sistem pengkodean karakter multilingual dan berhasil mengeluarkan sebuah proyek yang disebut Unification Code atau Unicode, yang memiliki tujuan utama menyatukan semua karakter yang ada di dunia menjadi sebuah kumpulan karakter.  
Unicode adalah standard internasional untuk mengkodekan semua bahasa di dunia pada komputer. Unicode dapat mencegah ambiguitas yang muncul ketika menampilkan skrip-skrip kompleks seperti bahasa Jepang, Arab atau Cina pada sistem komputer. Unicode dapat berjalan lebih cepat di Windows NT, 2000 dan XP. (Gerhards, 2001). 
Karakter-karakter yang biasa dipakai (seperti alphabet ANSI) berdasarkan karakter 8 bit yang disebut byte. Satu byte dapat merepresentasikan lebih dari 256 nilai yang berbeda. Skrip yang biasa digunakan dalam bahasa Inggris, Perancis atau Jerman sudah cukup dengan menggunakan representasi ini. Tetapi untuk bahasa-bahasa yang kompleks seperti bahasa Jepang atau Korea, 256 karakter yang berbeda ini tidak akan mencukupi.
Sehingga user dari bahasa-bahasa ini telah membangun double byte character sets, yang disebut DBCS. Pada DBCS, masing-masing karakter direpresentasikan oleh satu atau lebih byte. Sayangnya, terdapat banyak encoding DBCS untuk bahasa yang diberikan. Sistem operasi dan bahasa pemrograman yang berbeda menggunakan encoding DBCS yang berbeda pula. Dan lagi pemrograman relatif lebih kompleks karena operasi-operasi parsing byte.
Tujuan Unicode adalah untuk memecahkan masalah ini dengan menggunakan lebih dari satu byte untuk setiap karakter. Pada implementasi tertentu, digunakan 2 byte, dan mampu merepresentasikan 65.564 karakter berbeda. Ini cukup untuk menyimpan hampir semua karakter di dunia. Jadi dengan Unicode, semua karakter yang berbeda dapat disimpan dalam satu string. Dan karena semua karakter memiliki lebar yang tetap, kompleksitas pemrograman banyak tereduksi.
Aplikasi yang menggunakan Unicode mampu menyimpan dan memproses semua karakter di dunia. Untuk dapat mengirimkan string Unicode sebagai data ke sebuah program yang tidak ‘mengenal Unicode’ dan hanya mendukung encoding yang berbeda, gunakan “escapes”. Selain dengan menggunakan 2 “escapes”, dapat juga dengan mentransformasikan semua data pada field menjadi bentuk hex, misal dalam UTF-16 menjadi
“03B10020226400200033″ atau dalam UTF-8 menjadi “CEB120E289A42033″. Akan tetapi dengan cara ini membutuhkan space lebih dan kurang enak dibaca. Cara yang lain adalah dengan mentransformasi menjadi legacy encoding. Hal ini akan menyebabkan korupsi pada data yang tidak dapat diekspresikan dalam legacy encoding. Sebagian besar bahasa pemrograman saat ini telah memiliki tipe data spesial untuk karakter Unicode/ ISO 10646-1, misalnya Java, Perl, C# dan lain sebagainya.


  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS
Read Comments

0 komentar:

Posting Komentar