Unicode 概述(國際語言環境指南)
文章推薦指數: 80 %
「Unicode 標準」係用來表示電腦處理文字的通用字元編碼標準。
它與國際標準ISO/IEC ... UTF-8 是一種可變長度的Unicode 編碼格式,能有效地保存ASCII 字元編碼值。
DocumentationHome >國際語言環境指南 >第5章UTF-8語言環境支援概述 >Unicode概述國際語言環境指南Previous:第4章支援的亞洲語言環境Next:Unicode語言環境:en_US.UTF-8支援概述Unicode概述
「Unicode標準」係用來表示電腦處理文字的通用字元編碼標準。
它與國際標準ISO/IEC10646-1:2000和ISO/IEC
10646–2:2001完全相容,並包含了所有與ISO/IEC10646相同的字元和編碼點。
「Unicode標準」提供了關於字元及其使用方法的附加資訊。
所有與Unicode相符的實施方法同樣符合ISO/IEC10646。
「Unicode標準」提供了一致性的方法來進行多語一般文字的編碼,並有助於國際文字檔案的交換。
處理多語文字的電腦使用者、商務人士、語言學家、研究員和科學家等都發現,「
Unicode標準」能大幅簡化他們的工作。
經常使用數學符號和其他技術性字元的數學家和技術人員也發現「Unicode標準」確實相當便利。
Unicode透過17個16位元的平面最多可支援1,114,112個編碼點。
每個平面可支援65,536個不同的編碼點。
在Unicode可支援的超過一百萬個編碼點中,3.1版目前可在0、1、2和14平面上定義94,140個字元。
15和
16平面,也就是使用者定義字元,則只供私人使用。
15和16平面可合併支援總計131,068個使用者定義字元。
可使用下列任何的字元編碼機制來進行Unicode的編碼:
UTF-8
UTF-16
UTF-32
UTF-8是一種可變長度的Unicode編碼格式,能有效地保存ASCII字元編碼值。
此格式的使用方法如同SolarisUnicode
語言環境中的檔案碼一般。
UTF-16為16位元的Unicode編碼格式。
在UTF-16中,達到65,535的字元將編碼為單一16位元值。
對映超過
65,535到1,114,111之間的字元則編碼為成對的16位元值(代用值)。
UTF-32為固定長度的21位元Unicode編碼格式,通常出現在32位元容器或資料類型中。
此格式在SolarisUnicode
語言環境中係做為程序碼(寬字元碼)使用。
若需要與「Unicode標準」、ISO/IEC10646和其各種代表格式有關的詳細資訊,請參閱:
Unicode標準3.0版,Unicode
標準附錄#19:UFT-32,和UnicodeConsortiumUnicode標準附錄#27:3.1
版
ISO/IEC10646-1:2000,資訊技術通用的多重八位元組字元集
(UCS)-Part1:架構和基本多語平面
ISO/IEC10646-2:資訊技術通用的多重八位元組字元集
(UCS)-Part2:字體和符號的輔助多語平面、CJK表意文字的輔助平面、特殊目的平面
UnicodeConsortium的網站位於http://www.unicode.org/。
Previous:第4章支援的亞洲語言環境Next:Unicode語言環境:en_US.UTF-8支援概述
©2010,OracleCorporationand/oritsaffiliates
延伸文章資訊
- 1Unicode、UTF-8、UTF-16?編碼格式花傻傻
它對世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。 Unicode伴隨著通用字符集的標準而發展,同時也以書本的形式對外發表。
- 2Unicode、UTF-8、UTF-16,終於懂了 - 閱坊
Unicode 字符集的編碼範圍是 0x0000 - 0x10FFFF , 可以容納一百多萬個字符, 每個字符 ... 下表是Unicode 編碼對應UTF-8 需要的字節數量以及編碼格式.
- 3Unicode 概述(國際語言環境指南)
「Unicode 標準」係用來表示電腦處理文字的通用字元編碼標準。它與國際標準ISO/IEC ... UTF-8 是一種可變長度的Unicode 編碼格式,能有效地保存ASCII 字元編碼值。
- 4Unicode?UTF-8?GBK?……聊聊字符集和字符编码格式
Unicode 字符集简介 · UTF-8 —— 一种变长的Unicode 字符编码转换格式 · 扩展:聊聊主要针对汉字的字符集——GBK 和GB18030.
- 5Windows 10 記事本中的編碼(Notepad with Unicode, UTF-8 ...
說明. 在Windows 20H2 的記事本(notepad) 編碼格式的選項已經有所不同,分別是ANSI, UTF-8, UTF- ...