Unicode - 維基百科,自由的百科全書
文章推薦指數: 80 %
Unicode除了視覺上的字形、編碼方法、標準的字元編碼資料外,還包含了字元特性( ... 舉例來說,全形格式區段包含了主要的拉丁字母的全形格式,在中文、日文、以及韓文 ...
Unicode
維基百科,自由的百科全書
跳至導覽
跳至搜尋
萬國碼萬國碼標誌別名通用字元集(UCS)語言全球性標準萬國碼標準編碼格式UTF-8,UTF-16,GB18030不常用:UTF-32,BOCU,SCSU已淘汰:UTF-7前用ISO/IEC8859,其他大眾官網技術官網閱論編
Unicode,萬國碼聯盟官方中文名稱為統一碼[1],是資訊科技領域的業界標準。
它整理、編碼了世界上大部分的文字系統,使得電腦可以用更為簡單的方式來呈現和處理文字。
Unicode伴隨著通用字元集的標準而發展,同時也以書本的形式[2]對外發表。
Unicode至今仍在不斷增修,每個新版本都加入更多新的字元。
目前最新的版本為2022年9月公布的15.0.0[3],已經收錄超過14萬個字元(第十萬個字元在2005年獲採納)。
Unicode除了視覺上的字形、編碼方法、標準的字元編碼資料外,還包含了字元特性(如大小寫字母)、書寫方向、拆分標準等特性的資料庫。
Unicode的發展由非營利機構萬國碼聯盟負責,該機構致力於讓Unicode方案取代既有的字元編碼方案。
因為既有的方案往往空間非常有限,亦不適用於多語環境。
Unicode備受認可,並廣泛地應用於電腦軟體的國際化與在地化過程。
有很多新科技,如可延伸標示語言(ExtensibleMarkupLanguage,簡稱:XML)、Java程式語言以及現代的作業系統,都採用Unicode編碼。
Unicode也被ISO作為國際標準採納於通用字元集,即ISO/IEC10646,且Unicode相容ISO/IEC10646且完整對應各個版本標準。
[4][5]
目次
1起源與發展
1.1標準
1.2歷史
2Unicode的編碼和實現
2.1十大設計原則
2.2編碼方式
2.3實現方式
2.4Unicode字元平面對映
3非Unicode環境
4XML和Unicode
5輸入方法
5.1中文輸入法
5.2日文輸入法
5.3其他
6注釋
7參考文獻
8參閲
9外部連結
起源與發展[編輯]
Unicode為解決傳統字元編碼方案的侷限而產生,例如ISO8859-1所定義的字元雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不相容的情況。
很多傳統的編碼方式都有共同的問題,即容許電腦處理雙語環境(通常使用拉丁字母以及其本地語言),但卻無法同時支援多語言環境(指可同時處理多種語言混合的情況)。
Unicode編碼包含了不同寫法的字,如「ɑ/a」、「強/强」、「戶/户/戸」。
然而在漢字方面引起了一字多形的認定爭議,詳見中日韓統一表意文字。
在文字處理方面,萬國碼為每一個字元而非字形定義唯一的代碼(即一個整數)。
換句話說,萬國碼以一種抽象的方式(即數字)來處理字元,並將視覺上的演繹工作(例如字體大小、外觀形狀、字體形態、文體等)留給其他軟體來處理,例如網頁瀏覽器或是文字處理器。
目前,幾乎所有電腦系統都支援基本拉丁字母,並各自支援不同的其他編碼方式。
Unicode為了和它們相互相容,其首256個字元保留給ISO8859-1所定義的字元,使既有的西歐語系文字的轉換不需特別考量;並且把大量相同的字元重複編到不同的字元碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉換,而不會遺失任何資訊。
舉例來說,全形格式區段包含了主要的拉丁字母的全形格式,在中文、日文、以及韓文字形當中,這些字元以全形的方式來呈現,而不以常見的半形形式顯示,這對豎排文字和等寬排列文字有重要作用。
在表示一個Unicode的字元時,通常會用「U+」然後緊接著一組十六進位的數字來表示這一個字元。
在基本多文種平面裏的所有字元,要用四個數字(即2位元組,共16位元,例如U+4AE0,共支援六萬多個字元);在零號平面以外的字元則需要使用五或六個數字。
舊版的Unicode標準使用相近的標記方法,但卻有些微小差異:在Unicode3.0裏使用「U-」然後緊接著八個數字,而「U+」則必須隨後緊接著四個數字。
標準[編輯]
位於美國加州的Unicode組織允許任何願意支付會費的公司和個人加入,其成員包含了主要的電腦軟硬體廠商,例如Adobe系統、蘋果公司、惠普、IBM、微軟、全錄等。
20世紀80年代末,組成Unicode組織的商業機構,和國際合作的國際標準化組織因為電腦普及和資訊國際化的前提下,分別各自成立了Unicode組織[6]和ISO-10646工作小組。
他們不久便發現對方的存在,大家為著相同的目的而工作。
1991年,UnicodeConsortium與ISO/IECJTC1/SC2同意保持Unicode碼表與ISO10646標準保持相容並密切協調各自標準進一步的擴展。
雖然實際上兩者的字集編碼相同,但實質上兩者確實為兩個不同的標準。
Unicode1.1對應於ISO10646-1:1993,Unicode3.0對應於ISO10646-1:2000,Unicode3.2對應於ISO10646-2:2001,Unicode4.0對應於ISO10646:2003,Unicode5.0對應於ISO10646:2003及附錄1–3。
Unicode自2.0版本開始保持了向下相容,即新的版本僅僅增加字元,原有字元不會刪除或更名。
但從Unicode14.0起,即有的區段可擴展或縮減,第一個擴展的即有區段為阿洪姆文(Ahom)。
[7]
萬國碼聯盟在1991年首次發佈了TheUnicodeStandard。
Unicode的開發結合了國際標準化組織所制定的ISO/IEC10646,即通用字元集。
Unicode與ISO/IEC10646在編碼的運作原理相同,但TheUnicodeStandard包含了更詳盡的實現資訊、涵蓋了更細節的主題,諸如位元編碼(bitwiseencoding)、校對以及呈現等。
TheUnicodeStandard也列舉了諸多的字元特性,例如必須支援兩種閱讀方向的字元(由左至右或由右至左的文字閱讀方向,例如阿拉伯文是由右至左)。
Unicode與ISO/IEC10646兩個標準在術語上的使用有些微的不同。
[4]
在2005年,Unicode的第十萬個字元引入標準,該字元用於馬拉雅拉姆語。
歷史[編輯]
截至目前的Unicode各版本及其發佈時間如下:
其中,因應嚴重特殊傳染性肺炎疫情,Unicode14.0由2021年3月延後至2021年9月發布[8]。
Unicode版本
版本
發布日期
書籍
對應ISO/IEC10646版本
文字數
字元數
總計[註1]
已知的擴增
1.0.0
1991年10月
ISBN 0-201-56788-1(Vol.1)
24
7,161
最初包含的文字有:阿拉伯字母、亞美尼亞字母、孟加拉文、注音符號、西里爾字母、天城文、喬治亞字母、希臘字母、古吉拉特文、古木基文、諺文、希伯來字母、平假名、卡納達文、片假名、寮文字、拉丁字母、馬拉雅拉姆文、奧里亞文、泰米爾文、泰盧固文、泰文字與藏文[9]。
1.0.1
1992年6月
ISBN 0-201-60845-6(Vol.2)
25
28,359
定義中日韓統一表意文字最初的20,902個字[10]。
1.1
1993年6月
ISO/IEC10646-1:1993
24
34,233
於原有2,350個諺文字母的基礎上新增4,306個諺文字母。
移除藏文[11]。
2.0
1996年7月
ISBN 0-201-48345-9
ISO/IEC10646-1:1993與其第5-7修訂版
25
38,950
移除原有的諺文字母設定,於新的編碼範圍更換成11,172個新的諺文字母。
藏文重新加入,但編碼位置更換。
代理字元機制建立,並將第15與第16平面分配給私人使用區[12]。
2.1
1998年5月
ISO/IEC10646-1:1993與其第5-7修訂版,以及第18修訂版中新增的2個字元
25
38,952
新增歐元符號與物件替換字元[13]。
3.0
1999年9月
ISBN 0-201-61633-5
ISO/IEC10646-1:2000
38
49,259
新增切羅基文、吉茲字母、高棉字母、蒙古字母、緬文、歐甘字母、盧恩字母、僧伽羅文、敘利亞字母、它拿字母、加拿大原住民音節文字和彝文,以及部分盲文圖案。
[14]
3.1
2001年3月
ISO/IEC10646-1:2000
ISO/IEC10646-2:2001
41
94,205
新增德瑟雷特字母(英語:Deseretalphabet)、哥特字母、古義大利字母、音樂符號和拜占庭音樂符號,追加了42711個中日韓統一表意文字(CJK-B)。
[15]
3.2
2002年3月
ISO/IEC10646-1:2000與其第1修訂版
ISO/IEC10646-2:2001
45
95,221
新增菲律賓文字布錫文、哈努諾文、他加祿文、塔格巴奴亞文。
[16]
4.0
2003年4月
ISBN 0-321-18578-1
ISO/IEC10646:2003
52
96,447
新增賽普勒斯音節文字、林布字母、線形文字B、奧斯曼亞字母、蕭伯納字母、德宏傣文、烏加里特字母以及六十四卦。
[17]
4.1
2005年3月
ISO/IEC10646:2003與其第1修訂版
59
97,720
新增布吉文、格拉哥里字母、佉盧文、西雙版納傣文、古波斯文、錫爾赫特文和提非納文。
科普特字母從希臘文區段分離。
新增了古希臘音樂符號。
[18]
5.0
2006年7月
ISBN 0-321-48091-0
ISO/IEC10646:2003與其第1、2修訂版,以及第3修訂版中新增的4個字元
64
99,089
新增峇里文、楔形文字、西非書面文字、八思巴文和腓尼基字母。
[19]
5.1
2008年4月
ISO/IEC10646:2003與其第1-4修訂版
75
100,713
新增卡利亞文、占婆字母、克耶黎文、絨巴文、利西亞文、呂底亞文、桑塔利文、拉讓文、索拉什特拉文、巽他文和瓦伊文。
同時增加了斐斯托斯圓盤、麻將和多米諾骨牌符號。
對緬甸文做了重要的補充,追加了手抄縮寫的額外字母,追加了大寫ẞ。
[20]
5.2
2009年10月
ISBN 978-1-936213-00-9
ISO/IEC10646:2003與其第1-6修訂版
90
107,361
新增阿維斯陀文、巴姆穆文字、埃及象形文字(加汀納符號表,涵蓋1071個符號)、亞拉姆文、巴拉維碑銘體、帕提亞碑銘體、爪哇文、凱提文、老傈僳文、曼尼普爾文、南阿拉伯字母、古突厥文、撒瑪利亞字母、老傣文和傣越文。
追加4,149個中日韓統一表意文字(CJK-C),同時擴充了古韓文和吠陀梵文的字元。
[21]
6.0
2010年10月
ISBN 978-1-936213-01-6
ISO/IEC10646:2010與印度盧比符號
93
109,449
新增巴塔克字母、婆羅米文字、曼達字母、紙牌符號、交通標誌、地圖符號、鍊金術符號、顏文字和繪文字。
追加222個額外的中日韓統一表意文字(CJK-D)。
[22]
6.1
2012年1月
ISBN 978-1-936213-02-3
ISO/IEC10646:2012
100
110,181
新增查克馬字母、麥羅埃文、麥羅埃象形文字、柏格理苗文、夏拉達文、索拉僧平文字和泰克里文。
[23]
6.2
2012年9月
ISBN 978-1-936213-07-8
ISO/IEC10646:2012與土耳其里拉符號
100
110,182
土耳其里拉符號[24]。
6.3
2013年9月
ISBN 978-1-936213-08-5
ISO/IEC10646:2012與6個字元
100
110,187
5個雙向排版符號。
[25]
7.0
2014年6月
ISBN 978-1-936213-09-2
ISO/IEC10646:2012與其第1、2修訂版,以及俄羅斯盧布符號
123
113,021
新增巴薩字母、高加索阿爾巴尼亞字母、杜普雷嚴速記、愛爾巴桑字母、古蘭塔文、可吉文、庫達瓦迪文、線形文字A、馬哈佳尼文、摩尼教字母、門得文字、莫迪字母、默文、納巴泰字母、古北阿拉伯文、古彼爾姆文、楊松錄苗文、帕米拉文字、袍清豪文、詩篇巴列維文、悉曇文字、底羅仆多文、瓦蘭齊地文以及裝飾符號。
[26]
8.0
2015年6月
ISBN 978-1-936213-10-8
ISO/IEC10646:2014與其第1修訂版,以及喬治亞拉里符號、9個中日韓統一表意文字與41個表情符號[27]
129
120,737
增加阿洪姆文、安納托利亞象形文字、哈坦文、穆爾塔尼文、古匈牙利字母、薩頓手語譜寫、5,771個中日韓統一表意文字字元(CJK-E)、切羅基文小寫字母,以及五種繪文字膚色修改字元。
[28]
9.0
2016年6月
ISBN 978-1-936213-13-9
ISO/IEC10646:2014與其第1、2修訂版,阿德拉姆字母、尼泊爾紐瓦字母、日本電視符號和74個繪文字表情與符號。
[29]
135
128,237
新增阿德拉姆字母、比奇舒奇文、象雄文、尼泊爾紐瓦字母、歐塞奇字母、西夏文以及74個繪文字[30]
10.0
2017年6月
ISBN 978-1-936213-16-0
ISO/IEC10646:2017,新增56個繪文字符號、385個變體假名字元,和3個札那巴札爾字元[31]
139
136,755
札那巴札爾、索永布文字、馬薩拉姆貢德文字、女書、變體假名(非標準平假名)、7,494個中日韓統一表意文字字元(CJK-F)與56個繪文字[32]
11.0
2018年6月
ISBN 978-1-936213-19-1
ISO/IEC10646:2017與其第1修訂版,新增145個繪文字符號、5個急用漢字,copyleft符號、中國象棋符號等[33]
146
137,374
多格拉文、喬治亞文騎士體大寫字母、貢賈拉貢德文、哈乃斐羅興亞文字、望加錫文、梅德法伊德林文、老粟特字母、粟特字母以及145個繪文字[34]
12.0
2019年3月
ISBN 978-1-936213-22-1
ISO/IEC10646:2017與其第1、2修訂版,新增61個繪文字符號、一些方言苗文字元、古日文用小型日文假名、泰米爾文的符號、聖書體控制字元等[35]
150
137,928
埃利邁文、南迪城文、創世紀苗文、文喬文以及61個繪文字[36]
12.1
2019年5月
ISBN 978-1-936213-25-2
150
137,929
只在U+32FF新增了一個字元,即日本新年號令和的合字。
[37]
13.0
2020年3月
ISBN 978-1-936213-26-9
ISO/IEC10646:2020[38]
154
143,924
花剌子模語、迪維西語的島字母(英語:Dhivesakuru)、契丹小字、庫爾德語字母的雅茲迪文、4969個中日韓統一表意文字(4939個位於擴充區G(CJK-G))、書寫豪薩語用的阿拉伯附加字母、沃洛夫語、其他非洲語言、在巴基斯坦書寫印德科語(英語:Hindko)和旁遮普語的補充字元、粵語用的注音符號、創用CC授權符號、1970年代和1980年代電訊用圖符、55個繪文字[39]
14.0
2021年9月
ISBN 978-1-936213-29-0
159
144,697
托托文,用於在印度東北部書寫托托語
塞普勒斯-米諾斯文字,一種未破譯的歷史文字,主要用於賽普勒斯島
維斯庫奇文,一種用於書寫阿爾巴尼亞語的歷史文字,正在經歷現代復興
回鶻字母,一種歷史上在中亞和其他地方用於書寫突厥語、漢語、蒙古語、藏語和阿拉伯語的文字
唐薩文,一種現代文字,用於書寫在印度和緬甸使用的唐薩語
位於第一輔助平面的拉丁文擴充區段(擴展F和G)增加了許多擴充IPA字母,和許多用於拉丁語及阿拉伯文字的補充字母,這些字母用於非洲和伊朗、巴基斯坦、馬來西亞、印度尼西亞、爪哇和波士尼亞書寫語言,以及書寫敬語,以及為《古蘭經》使用的補充。
其它的一些字元添加支援北美和菲律賓、印度和蒙古的語言的文字
追加9個額外的中日韓統一表意文字(基本多文種平面、第二輔助平面)。
[40]
15.0
2022年9月
ISBN 978-1-936213-29-0
161
149,186
卡維文和蒙達里字母、4,192個中日韓統一表意文字字元(CJK-H)、用於埃及象形文字的控制字元以及20個繪文字。
[41]
Unicode的編碼和實現[編輯]
大概來說,Unicode編碼系統可分為編碼方式和實現方式兩個層次。
十大設計原則[編輯]
《TheUnicodeStandardVersion6.2–CoreSpecification》[42]文件給出了Unicode的十大設計原則:
Universality:提供單一、綜合的字元集,編碼一切現代與大部分歷史文獻的字元。
Efficiency:易於處理與分析。
Characters,notglyphs:字元,而不是字形。
Semantics:字元要有良好定義的語意。
Plaintext:僅限於文字字元。
Logicalorder:預設記憶體表示是其邏輯序。
Unification:把不同語言的同一書寫系統(scripts)中相同字元統一起來。
Dynamiccomposition:附加符號可以動態組合。
Stability:已分配的字元與語意不再改變。
Convertibility:Unicode與其他著名字元集可以精確轉換。
編碼方式[編輯]
萬國碼的編碼方式與ISO10646的通用字元集概念相對應。
目前實際應用的萬國碼版本對應於UCS-2,使用16位的編碼空間。
也就是每個字元占用2個位元組。
這樣理論上一共最多可以表示216(即65536)個字元。
基本滿足各種語言的使用。
實際上目前版本的萬國碼並未完全使用這16位元編碼,而是保留了大量空間以作為特殊使用或將來擴充。
上述16位元萬國碼字元構成基本多文種平面。
最新(但未實際廣泛使用)的萬國碼版本定義了16個輔助平面,兩者合起來至少需要占據21位的編碼空間,比3位元組略少。
但事實上輔助平面字元仍然占用4位元組編碼空間,與UCS-4保持一致。
未來版本會擴充到ISO10646-1實現級別3,即涵蓋UCS-4的所有字元。
UCS-4是更大而尚未填充完全的31位元字元集,加上恆為0的首位,共需占據32位元,即4位元組。
理論上最多能表示231個字元,完全可以涵蓋一切語言所用的符號。
基本多文種平面的字元的編碼為U+hhhh,其中每個h代表一個十六進位數字,與UCS-2編碼完全相同。
而其對應的4位元組UCS-4編碼後兩個位元組一致,前兩個位元組則所有位均為0。
實現方式[編輯]
Unicode的實現方式不同於編碼方式。
一個字元的Unicode編碼確定。
但是在實際傳輸過程中,由於不同系統平台的設計不一定一致,以及出於節省空間的目的,對Unicode編碼的實現方式有所不同。
Unicode的實現方式稱為Unicode轉換格式(UnicodeTransformationFormat,簡稱為UTF)。
例如,如果一個僅包含基本7位ASCII字元的Unicode檔案,如果每個字元都使用2位元組的原Unicode編碼傳輸,其第一位元組的8位元始終為0。
這就造成了比較大的浪費。
對於這種情況,可以使用UTF-8編碼,這是變長編碼,它將基本7位ASCII字元仍用7位編碼表示,占用一個位元組(首位補0)。
而遇到與其他Unicode字元混合的情況,將按一定演算法轉換,每個字元使用1-3個位元組編碼,並利用首位為0或1辨識。
這樣對以7位ASCII字元為主的西文文件就大幅節省了編碼長度(具體方案參見UTF-8)。
類似的,對未來會出現的需要4個位元組的輔助平面字元和其他UCS-4擴充字元,2位元組編碼的UTF-16也需要通過一定的演算法轉換。
再如,如果直接使用與Unicode編碼一致(僅限於BMP字元)的UTF-16編碼,由於每個字元占用了兩個位元組,在麥金塔電腦(Mac)機和個人電腦上,對位元組順序的理解不一致。
這時同一位元組流可能會解釋為不同內容,如某字元為十六進位編碼4E59,按兩個位元組拆分為4E和59,在Mac上讀取時是從低位元組開始,那麼在MacOS會認為此4E59編碼為594E,找到的字元為「奎」,而在Windows上從高位元組開始讀取,則編碼為U+4E59的字元為「乙」。
就是說在Windows下以UTF-16編碼儲存一個字元「乙」,在MacOS環境下開啟會顯示成「奎」。
此類情況說明UTF-16的編碼順序若不加以人為定義就可能發生混淆,於是在UTF-16編碼實現方式中使用了大端序(Big-Endian,簡寫為UTF-16BE)、小端序(Little-Endian,簡寫為UTF-16LE)的概念,以及可附加的位元組順序記號解決方案,目前在個人電腦上的Windows系統和Linux系統對於UTF-16編碼預設使用UTF-16LE。
(具體方案參見UTF-16)
此外Unicode的實現方式還包括UTF-7、Punycode、CESU-8、SCSU、UTF-32、GB18030等,這些實現方式有些僅在一定的國家和地區使用,有些則屬於未來的規劃方式。
目前通用的實現方式是UTF-16小端序(LE)、UTF-16大端序(BE)和UTF-8。
在微軟公司WindowsXP附帶的記事本(Notepad)中,「另存為」對話方塊可以選擇的四種編碼方式除去非Unicode編碼的ANSI(對於英文系統即ASCII編碼,中文系統則為GB2312或Big5編碼)外,其餘三種為「Unicode」(對應UTF-16LE)、「Unicodebigendian」(對應UTF-16BE)和「UTF-8」。
目前輔助平面的工作主要集中在第二和第三平面的中日韓統一表意文字,因此包括GBK、GB18030、Big5等簡體中文、繁體中文、日文、韓文以及越南喃字的各種編碼與Unicode的協調性受重點關注。
考慮到Unicode最終要涵蓋所有的字元。
從某種意義而言,這些編碼方式也可視作Unicode的出現於其之前的既成事實的實現方式,如同ASCII及其擴充Latin-1一樣,後兩者的字元在16位元Unicode編碼空間中的編碼第一位元組各位全為0,第二位元組編碼與原編碼完全一致。
但上述東亞語言編碼與Unicode編碼的對應關係要複雜得多。
Unicode字元平面對映[編輯]
主條目:Unicode字元平面對映
Unicode將編碼空間分成17個平面,以0到16編號。
第0平面(或者說基本多文種平面)中的碼點,都可以用一個UTF-16單位來編碼,或者以UTF-8來編碼的話,會使用一、二或三個位元組。
而第1到16平面(或稱輔助平面)中的碼點,UTF-16會以代理對的方式來使用,而UTF-8則會編碼成4個位元組。
在每個平面中,會先將相關的字元集結為區段的形式。
雖然區段可以是任意大小,但會以16個碼點的倍數,且通常是128個碼點的倍數。
而一份文稿中使用到的區段,可能會散布在多個區段中。
非Unicode環境[編輯]
在非Unicode環境下,由於不同國家和地區採用的字元集不一致,很可能出現無法正常顯示所有字元的情況。
微軟公司使用了頁碼(Codepage)轉換表的技術來過渡性地部分解決這一問題,即通過指定的轉換表將非Unicode的字元編碼轉換為同一字元對應的系統內部使用的Unicode編碼。
可以在「語言與區域設定」中選擇一個頁碼作為非Unicode編碼所採用的預設編碼方式,如936為簡體中文GB碼,950為繁體中文Big5(皆指PC上使用的)。
在這種情況下,一些非英語的歐洲語言編寫的軟體和文件很可能出現亂碼。
而將頁碼設定為相應語言中文處理又會出現問題,這一情況無法避免。
只有完全採用統一編碼才能徹底解決這些問題,但目前尚無法做到這一點。
頁碼技術現在廣泛為各種平台所採用。
UTF-7的頁碼是65000,UTF-8的頁碼是65001。
XML和Unicode[編輯]
XML及其子集XHTML採用UTF-8作為標準字元集,理論上我們可以在各種支援XML標準的瀏覽器上顯示任何地區文字的網頁,只要電腦本身安裝有合適的字型即可。
可以利用nnn;的格式顯示特定的字元。
nnn代表該字元的十進位Unicode代碼。
如果採用十六進位代碼,在編碼之前加上x字元即可。
但部分舊版本的瀏覽器可能無法辨識十六進位代碼。
過去電腦編碼的8位元標準,使每個國家都只按國家使用的字元而編定各自的編碼系統;而對於部份字元系統比較複雜的語言,如越南語,又或者東亞國家的大型字元集,都不能在8位元的環境下正常顯示。
只是最近才有在文字中對十六進位的支援,那麼舊版本的瀏覽器顯示那些字元或許可能有問題——大概首先會遇到的問題只是在對於大於8位元Unicode字元的顯示。
解決這個問題的普遍做法仍然是將其中的十六進位碼轉換成一個十進位碼(例如:♠用♠代替♠)。
也有一些字元集標準將一些常用的標誌存放在字元內碼外面,那麼你可能使用像—這樣的文字標誌來表示一個長劃(—)的情況,即使它的字元內碼已經使用,這些標準也不包含那個字元。
然而部分由於Unicode版本發展原因,很多瀏覽器只能顯示UCS-2完整字元集,也即現在使用的Unicode版本中的一個小子集。
下表可以檢驗您的瀏覽器如何顯示各種Unicode代碼:
代碼
字元標準名稱(英語)
在瀏覽器上的顯示
A
大寫拉丁字母「A」
A
ß
小寫拉丁字母「SharpS」
ß
þ
小寫拉丁字母「Thorn」
þ
Δ
大寫希臘字母「Delta」
Δ
Й
大寫斯拉夫字母「ShortI」
Й
ק
希伯來字母「Qof」
ק
م
阿拉伯字母「Meem」
م
๗
泰文數字7
๗
ቐ
衣索比亞音節文字「Qha」
ቐ
あ
日語平假名「A」
あ
ア
日語片假名「A」
ア
叶
簡體漢字「叶」
叶
葉
正體漢字「葉」
葉
엽
韓國音節文字「Yeop」
엽
一些多語言支援的網頁瀏覽器,比如MicrosoftWindows系統的InternetExplorer5.5及以上版本,以及跨平台的瀏覽器Mozilla/Netscape6,可以在安裝時根據需要動態地使用相應的字元集,預先安裝了合適的語言套件,就可以同時顯示頁面上的各種Unicode字元。
InternetExplorer5.5還提出使用者可以在需要新字型時,即裝即用。
另外的瀏覽器如NetscapeNavigator4.77,則只能顯示跟頁面編碼相應字元集中的文字。
當你使用後一種瀏覽器時,你不大可能預先安裝所有的字型,即使有了字型,瀏覽器也不一定能將這些字型完全應用起來。
可能遇到的情況是,這種瀏覽器只能夠顯示部分文字,因為它們是按照標準編碼,儘管理論上在相容的系統中,只要有了相應的Code2000字型,就可以正確顯示。
一種變通的辦法,是將某些少見的字元,通過「名稱實體參照」的方式來使用。
輸入方法[編輯]
不同的作業系統,各有直接輸入Unicode字元的方法:
基於XWindowSystem的Linux系統,如Ubuntu的GnomeTerminal,首先按下Ctrl+Shift+U,然後輸入16進位Unicode數,如interpunct間隔符輸入00b7,最後按空格鍵;
MicrosoftWindows系統,按下Alt+0183表示interpunct間隔符。
在SGML、HTML、XML的文字中,使用字元值參照或字元實體參照表示一個Unicode字元。
中文輸入法[編輯]
截至2011年10月,可以使用微軟拼音2003或2007版本、倉頡輸入法第三代第五代第六代版本、鄭碼Unicode版本、海峰五筆9.3版本、新注音輸入法和VimIM輸入。
微軟拼音在輸入法啟動狀態下,單擊語言欄上的「功能選單」按鈕,指向「輔助輸入法」即可發現「Unicode碼輸入方式」,利用它可以直接輸入Unicode相應十六進制值的方式輸入相應文字。
例如中文「胥」輸入「5066」,朝鮮文字「셅」輸入「c145」(不需要在前面加0x或x)。
新版本下也可以輸入VUC(大小寫不敏感)再輸入編碼。
倉頡輸入法已爲Unicode漢字、類漢字編碼,可以在倉頡輸入法方式下通過倉頡碼輸入方式輸入Unicode內的中日韓漢字及韓文。
以倉頡輸入法第五代爲例,例如漢字「㗎」輸入「口大口木」,漢字「胥」輸入「弓人月」,漢字「㿱」輸入「手中木竹水」,朝鮮文字「닮」輸入「尸卜尸女口」。
由於朱邦復工作室使用的倉頡系統收字比Unicode還多,目前Unicode既有漢字皆已有倉頡編碼。
鄭碼已爲Unicode漢字、類漢字編碼,可以在鄭碼輸入法方式下通過鄭碼字碼輸入方式輸入Unicode內的中日韓漢字及韓文。
例如漢字「㗎」輸入「JYJF」,漢字「胥」輸入「XIQ」,漢字「㿱」輸入「DPXI」,朝鮮文字「길」輸入「XIYY」。
海峰五筆此輸入法已經直接支援透過五筆碼輸入方式輸入Unicode內的任意中日韓漢字,但無法使用鍵入Unicode碼的方式輸入。
例如漢字(Unicode部分)「㗎」為「keks」,CJK擴充B區的「𣿱」為「iyho」和CJK擴充C區的「𫆦」為「muih」。
新注音輸入法在輸入法啟動狀態時,打入鍵盤上的「多功能前導字元鍵」(即通用鍵盤上之「`」),第一次使用會彈出說明。
輸入Unicode字元「胥」則是在鍵盤上鍵入「`U5066」。
而韓語中的「셅」,則輸入「`UC145」。
而要輸入日語自製漢字「峠」,則是「`U5CE0」。
VimIM在Vim環境中,可以直接鍵入十進制或十六進制Unicode碼。
既不需要啟動輸入法,也不需要碼表。
嘸蝦米輸入法,支援Unicode,以26個英文字母為組字按鍵,可直接輸入符號、日文漢字及平假名、片假名,但漢字部份一般只支援基本正體中文、簡體中文,擴充A區的漢字要另行擴充編碼才能輸入,擴充B區的漢字尚無編碼。
日文輸入法[編輯]
使用MicrosoftIME2007,可以在IMEPad找到Unicode的點擊表。
點擊字元即可輸入。
選擇字型可以預覽字元效果。
其他[編輯]
除了輸入法外,作業系統也會提供另外幾種方法輸入Unicode。
像是Windows2000之後的Windows系統就提供可點擊的字元對映表。
又或者在MicrosoftWord下,按下Alt鍵不放,使用數字鍵盤輸入0和某個字元的Unicode編碼(十進位),再鬆開Alt鍵即可得到該字元,如Alt033865會得到Unicode字元葉。
另外,按AltX組合鍵,MicrosoftWord也會將游標前面的字元同其十六進位的四位Unicode編碼互相轉換。
注釋[編輯]
^下列的總計數是圖形、格式及控制字元的總數目,即不計算私人使用區、非字元及代理字元在內。
參考文獻[編輯]
^AboutUnicodeTerminology.unicode.org.[2021-03-25].(原始內容存檔於2021-04-21).
^TheUnicodeStandard第五版.Addison-WesleyProfessional.ISBN 0321480910.
^Unicode.Unicode15.0.UnicodeConsortium.2022-09-15[2022-09-15].
^4.04.1TechnicalIntroduction.www.unicode.org.[2021-10-03].(原始內容存檔於2022-04-23).
^FAQ-UnicodeandISO10646.www.unicode.org.[2021-10-03].(原始內容存檔於2021-12-14).
^Unicode.[2004-04-02].(原始內容存檔於2018-03-19).
^BETAUnicode14.0.0.www.unicode.org.[2021-09-20].(原始內容存檔於2021-10-23).
^Unicode,Inc.Unicode14.0Delayedfor6Months.[2020-06-12].(原始內容存檔於2022-02-03).
^UnicodeData1.0.0.[2010-03-16].(原始內容存檔於2012-06-30).
^UnicodeData1.0.1.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData1995.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData-2.0.14.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData-2.1.2.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData-3.0.0.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData-3.1.0.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData-3.2.0.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData-4.0.0.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData.[2010-03-16].(原始內容存檔於2022-03-21).
^UnicodeData5.0.0.[2010-03-17].(原始內容存檔於2022-03-21).
^UnicodeData5.1.0.[2010-03-17].(原始內容存檔於2022-04-19).
^UnicodeData5.2.0.[2010-03-17].(原始內容存檔於2022-03-21).
^UnicodeData6.0.0.[2010-10-11].(原始內容存檔於2022-03-21).
^UnicodeData6.1.0.[2012-01-31].(原始內容存檔於2022-03-26).
^UnicodeData6.2.0.[2012-09-26].(原始內容存檔於2022-03-26).
^UnicodeData6.3.0.[2013-09-30].(原始內容存檔於2022-04-07).
^UnicodeData7.0.0.[2014-06-15].(原始內容存檔於2022-04-07).
^Unicode8.0.0.UnicodeConsortium.[2015-06-17].(原始內容存檔於2016-06-28).
^UnicodeData8.0.0.[2015-06-17].(原始內容存檔於2021-03-24).
^Unicode9.0.0.UnicodeConsortium.[2016-06-21].(原始內容存檔於2020-02-28).
^UnicodeData9.0.0.[2016-06-21].(原始內容存檔於2022-04-07).
^Unicode10.0.0.UnicodeConsortium.[2017-06-20].(原始內容存檔於2017-06-20).
^UnicodeData10.0.0.[2017-06-20].(原始內容存檔於2021-11-21).
^Unicode11.0.0.UnicodeConsortium.[2018-06-06].(原始內容存檔於2021-03-30).
^UnicodeData11.0.0.[2018-06-06].(原始內容存檔於2022-04-08).
^Unicode12.0.0.UnicodeConsortium.[2019-03-13].(原始內容存檔於2021-03-30).
^UnicodeData12.0.0.[2019-03-13].(原始內容存檔於2022-04-20).
^UnicodeVersion12.1releasedinsupportoftheReiwaEra.blog.unicode.org.[2019-05-07].(原始內容存檔於2019-05-07).
^TheUnicodeStandard,Version13.0–CoreSpecificationAppendixC(PDF).UnicodeConsortium.[2020-03-11].(原始內容(PDF)存檔於2021-08-05).
^AnnouncingTheUnicode®Standard,Version13.0.blog.unicode.org.[2020-03-11].(原始內容存檔於2022-04-26).
^AnnouncingTheUnicode®Standard,Version14.0.blog.unicode.org.[2022-09-15].(原始內容存檔於2022-09-15).
^AnnouncingTheUnicode®Standard,Version15.0.blog.unicode.org.[2022-09-15].
^TheUnicodeStandard,Version6.2,2012Unicode,Inc.Chapter2GeneralStructure2.2UnicodeDesignPrinciples(PDF).[2017-04-18].(原始內容(PDF)存檔於2022-04-01).
參閲[編輯]
語言主題
資訊科技主題
國際關係主題
Wikipedia:Unicode擴充漢字
Unicode字元平面對映
Unicode聯盟
Unicode字元列表
Unicode數字
中日韓統一表意文字(CJK/Unihan)
通用字元集
寬字元
UTF-8
萬國音標(表示語言讀音)
外部連結[編輯]
維基教科書中的相關電子教學:Unicode編碼表
Unicodeofficialsite(Unicode官方網站)
(頁面存檔備份,存於網際網路檔案館)(Unicode聯盟)
Unicode7.0.0(頁面存檔備份,存於網際網路檔案館)
DecodeUnicode-UnicodeWIKI,提供Unicode6.0全部109242個字的GIF字型預覽
AlanWood'sUnicodeResources(頁面存檔備份,存於網際網路檔案館)
TheInternationalPhoneticAlphabetinUnicode(國際音標的Unicode編碼)
CJKCompatibilityIdeographs(頁面存檔備份,存於網際網路檔案館)(中日韓相容表意文字)
Unicodecharactercharts(頁面存檔備份,存於網際網路檔案館)(Unicode字元對映表)
UTF-8和Unicode的常見問題
UTF-8Codepage(頁面存檔備份,存於網際網路檔案館)(UTF-8代碼頁)
Unicode11.0(頁面存檔備份,存於網際網路檔案館)(Unicode11.0字元匯總,PDF)
閱論編字元編碼早期電信
電報電碼(英語:Telegraphcode)
庫克與惠斯通(英語:CookeandWheatstonetelegraph)
摩斯
非拉丁字母(英語:Morsecodefornon-Latinalphabets)
日文(英語:Wabuncode)
中文
西里爾字母(英語:RussianMorsecode)
韓文(英語:SKATS)
博多與莫瑞
Fieldata(英語:Fieldata)
ASCII
ISO/IEC646
BCDIC(英語:BCD(characterencoding))
電傳文訊(英語:Teletex)與電傳視訊(英語:Videotex)/電視資訊
T.51/ISO/IEC6937(英語:T.51/ISO/IEC6937)
ITUT.61(英語:ITUT.61)
ITUT.101(英語:Videotexcharacterset)
世界系統電傳文訊(英語:WorldSystemTeletext)
字元集(英語:Teletextcharacterset)
ISO/IEC8859
現行
-1(西歐語言)
-2(中歐語言)
-3(馬爾他文/世界文)
-4(北歐語言)
-5(西里爾字母)
-6(阿拉伯文)
-7(希臘文)
-8(希伯來文)
-9(土耳其文)
-10(北日耳曼語支)
-11(泰文)
-13(波羅的語族)
-14(凱爾特語族)
-15(新西歐語言)
-16(羅馬尼亞文)
廢止
-12(梵文)
提議
KOI-8西里爾字母(英語:ISO-IR-111)
薩米文(英語:ISO-IR-197)
改編
威爾斯文(英語:ISO-IR-182)
巴倫支西里爾字母(英語:ISO-IR-200)
愛沙尼亞文(英語:Codepage922)
烏克蘭西里爾字母(英語:Codepage1124)
書目
MARC-8(英語:MARC-8)
ANSEL(英語:ANSEL)
CCCII/EACC
ISO5426(英語:ISO5426)
ISO5427(英語:ISO5427)
ISO5428(英語:ISO5428)
ISO6438
ISO6862(英語:ISO6862)
國家標準
ArmSCII
BraSCII(英語:BraSCII)
CNS11643
DIN66003(英語:DIN66003)
ELOT927(英語:ELOT927)
GOST10859(英語:GOST10859)
GB2312
GB12052
GB18030
HKSCS
ISCII
JISX0201
JISX0208
JISX0212(英語:JISX0212)
JISX0213(英語:JISX0213)
KOI-7(英語:KOI-7)
KPS9566
KSX1001
KSX1002(英語:KSX1002)
LST1564(英語:LST1564)
LST1590-4(英語:LST1590-4)
PASCII
ShiftJIS
SI960(英語:SI960)
TIS-620(英語:ThaiIndustrialStandard620-2533)
TSCII
VISCII(英語:VISCII)
VSCII
YUSCII(英語:YUSCII)
ISO/IEC2022
ISO/IEC8859
ISO/IEC10367(英語:ISO/IEC10367)
EUC
ISO-IR-165
macOS頁碼
亞美尼亞文(英語:MacOSArmenian)
阿拉伯文
巴倫支西里爾字母(英語:MacOSBarentsCyrillic)
凱爾特語族(英語:MacOSCeltic)
中歐語言
克羅埃西亞文(英語:MacOSCroatianencoding)
西里爾字母(英語:MacOSCyrillicencoding)
梵文(英語:MacOSDevanagariencoding)
波斯文(英語:MacFarsiencoding)
字體X(英語:MacintoshFontXencoding)
蓋爾文(英語:MacOSGaelic)
喬治亞文(英語:MacOSGeorgian)
希臘文(英語:MacGreekencoding)
古吉拉特文(英語:MacOSGujarati)
古木基文(英語:MacOSGurmukhi)
希伯來文(英語:MacOSHebrew)
冰島文(英語:MacOSIcelandicencoding)
因紐特文(英語:MacOSInuit)
鍵盤(英語:MacOSKeyboardencoding)
拉丁文(英語:MacintoshLatinencoding)
馬爾他文/世界文(英語:MacOSMaltese/Esperantoencoding)
歐甘字母(英語:MacOSOgham)
羅曼語族
羅馬尼亞文(英語:MacOSRomanianencoding)
薩米文(英語:MacOSSámi)
土耳其文(英語:MacOSTurkishencoding)
土耳其西里爾字母(英語:MacOSTurkicCyrillic)
烏克蘭文(英語:MacOSUkrainianencoding)
VT100(英語:VT100encoding)
DOS代碼頁
437
668(英語:Codepage668)
708(英語:Codepage708)
720(英語:Codepage720)
737(英語:Codepage737)
770(英語:Codepage770)
773(英語:Codepage773)
775(英語:Codepage775)
776(英語:Codepage776)
777(英語:Codepage777)
778(英語:Codepage778)
850(英語:Codepage850)
851(英語:Codepage851)
852(英語:Codepage852)
853(英語:Codepage853)
855(英語:Codepage855)
856(英語:Codepage856)
857(英語:Codepage857)
858(英語:Codepage858)
859(英語:Codepage859)
860(英語:Codepage860)
861(英語:Codepage861)
862(英語:Codepage862)
863(英語:Codepage863)
864(英語:Codepage864)
865(英語:Codepage865)
866(英語:Codepage866)
867(英語:Codepage867)
868(英語:Codepage868)
869(英語:Codepage869)
897(英語:Codepage897)
899(英語:Codepage899)
903(英語:Codepage903)
904(英語:Codepage904)
932(英語:Codepage932(IBM))
936(英語:Codepage936(IBM))
942(英語:Codepage942)
949(英語:Codepage949(IBM))
950
951(英語:Codepage951)
1040(英語:Codepage1040)
1042(英語:Codepage1042)
1043(英語:Codepage1043)
1046(英語:Codepage1046)
1098(英語:Codepage1098)
1115(英語:Codepage1115)
1116(英語:Codepage1116)
1117(英語:Codepage1117)
1118(英語:Codepage1118)
1127(英語:Codepage1127)
3846(英語:Codepage3846)
ABICOMP(英語:ABICOMPcharacterset)
CSIndic(英語:CSIndiccharacterset)
CSXIndic(英語:CSXIndiccharacterset)
CSX+Indic(英語:CSX+Indiccharacterset)
CWI-2(英語:CWI-2)
伊朗系統(英語:IranSystemencoding)
卡梅尼茨(英語:Kamenickýencoding)
馬索維亞(英語:Mazoviaencoding)
MIK(英語:MIK(characterset))
IBMAIX代碼頁
895(英語:Codepage895)
896(英語:Codepage896)
912(英語:Codepage912)
915(英語:Codepage915)
921(英語:Codepage921)
922(英語:Codepage922)
1006(英語:Codepage1006)
1008(英語:Codepage1008)
1009(英語:Codepage1009)
1010(英語:Codepage1010)
1012(英語:Codepage1012)
1013(英語:Codepage1013)
1014(英語:Codepage1014)
1015(英語:Codepage1015)
1016(英語:Codepage1016)
1017(英語:Codepage1017)
1018(英語:Codepage1018)
1019(英語:Codepage1019)
1124(英語:Codepage1124)
1133(英語:Codepage1133)
MicrosoftWindows代碼頁(英語:Windowscodepage)
CER-GS(英語:CER-GS)
932(英語:Codepage932(MicrosoftWindows))
936
GBK
950
1169(英語:Codepage1169)
ExtendedLatin-8(英語:ExtendedLatin-8)
1250(英語:Windows-1250)
1251(英語:Windows-1251)
1252
1253(英語:Windows-1253)
1254(英語:Windows-1254)
1255(英語:Windows-1255)
1256(英語:Windows-1256)
1257(英語:Windows-1257)
1258(英語:Windows-1258)
1270(英語:Windows-1270)
西里爾字母+芬蘭文(英語:WindowsCyrillic+Finnish)
西里爾字母+法文(英語:WindowsCyrillic+French)
西里爾字母+德文(英語:WindowsCyrillic+German)
希臘語變音符號(英語:WindowsPolytonicGreek)
EBCDIC代碼頁
37(英語:Codepage37)
EBCDIC中的日文(英語:JapaneselanguageinEBCDIC)
DKOI(英語:DKOI)
DEC終端機(VTx(英語:VT220))
MCS(英語:MultinationalCharacterSet)
NRCS(英語:NationalReplacementCharacterSet)
加拿大法文(英語:Codepage1020)
瑞士文(英語:Codepage1021)
西班牙文(英語:Codepage1023)
英國英文(英語:Codepage1101)
荷蘭文(英語:Codepage1102)
芬蘭文(英語:Codepage1103)
法文(英語:Codepage1104)
挪威文/丹麥文(英語:Codepage1105)
瑞典文(英語:Codepage1106)
挪威文/丹麥文(替代)(英語:Codepage1107)
8位元希臘文(英語:Codepage1287)
8位元土耳其文(英語:Codepage1288)
SI960(英語:SI960)
希伯來文(英語:DECHebrew)
特殊圖形(英語:DECSpecialGraphics)
技術(英語:DECTechnicalCharacterSet)
特定平臺
1057(英語:Codepage1057)
Acorn(英語:RISCOScharacterset)
Adobe標準(英語:PostScriptStandardEncoding)
AdobeLatin1(英語:PostScriptLatin1Encoding)
AmstradCPC(英語:AmstradCPCcharacterset)
AppleII(英語:AppleIIcharacterset)
雅達利資訊交換標準碼(英語:ATASCII)
雅達利ST(英語:AtariSTcharacterset)
BICS(英語:BitstreamInternationalCharacterSet)
卡西歐計算機(英語:Casiocalculatorcharactersets)
CDC(英語:CDCdisplaycode)
CompucolorII(英語:CompucolorIIcharacterset)
CP/M+(英語:AmstradCP/MPluscharacterset)
DECRADIX50(英語:DECRADIX50)
DECMCS(英語:MultinationalCharacterSet)/NRCS(英語:NationalReplacementCharacterSet)
DG國際(英語:DGInternational)
Fieldata(英語:Fieldata)
GEM(英語:GEMcharacterset)
GSM03.38(英語:GSM03.38)
HPRoman(英語:HPRoman)
HPFOCAL(英語:FOCALcharacterset)
HPRPL(英語:RPLcharacterset)
SQUOZE(英語:SQUOZE)
LICS(英語:LotusInternationalCharacterSet)
LMBCS(英語:LotusMulti-ByteCharacterSet)
MSX(英語:MSXcharacterset)
NECAPC(英語:NECAPCcharacterset)
NeXT(英語:NeXTcharacterset)
PETSCII(英語:PETSCII)
SEGASC-3000(英語:SegaSC-3000characterset)
夏普計算機(英語:Sharppocketcomputercharactersets)
夏普MZ(英語:SharpMZcharacterset)
辛克萊QL(英語:SinclairQLcharacterset)
符號
電傳文訊(英語:Teletextcharacterset)
德州儀器計算機(英語:TIcalculatorcharactersets)
TRS-80(英語:TRS-80characterset)
文圖拉國際(英語:VenturaInternational)
WISCII(英語:WangInternationalStandardCodeforInformationInterchange)
XCCS(英語:XeroxCharacterCodeStandard)
ZX80(英語:ZX80characterset)
ZX81(英語:ZX81characterset)
ZXSpectrum(英語:ZXSpectrumcharacterset)
Unicode/ISO/IEC10646
UTF-1
UTF-7
UTF-8
UTF-16
UTF-32
UTF-EBCDIC(英語:UTF-EBCDIC)
GB18030
BOCU-1
CESU-8
SCSU
TACE16(英語:TamilAllCharacterEncoding)
Unicode編碼比較(英語:ComparisonofUnicodeencodings)
TeX排版系統
科克(英語:Corkencoding)
LY1(英語:LY1encoding)
OML(英語:OMLencoding)
OMS(英語:OMSencoding)
OT1(英語:OT1encoding)
其他代碼頁
ABICOMP(英語:ABICOMPcharacterset)
ASMO449(英語:ASMO449)
Big5
APL符號數位編碼(英語:DigitalencodingofAPLsymbols)
ISO-IR-68(英語:ISO-IR-68)
ARIBSTD-B24
HZ(英語:HZ(characterencoding))
IEC-P27-1(英語:IEC-P27-1)
INIS
7位元(英語:INIScharacterset)
INIS-8(英語:8位元)
ISO-IR-169(英語:ISO-IR-169)
ISO2033(英語:ISO2033)
KOI
-R
-RU(英語:KOI8-RU)
-U
今昔文字鏡
SEASCII(英語:StanfordExtendedASCII)
Stanford/ITS(英語:Stanford/ITScharacterset)
TRON(英語:TRON(encoding))
統合韓文代碼(英語:UnifiedHangulCode)
控制字元
摩斯電碼專用代碼(英語:ProsignsforMorsecode)
C0與C1控制字元
ISO/IEC6429
JISX0211(英語:JISX0211)
Unicode控制字元
空白字元
相關條目
CCSID(英語:CCSID)
HTML字元編碼
字元集探測
中日韓統一表意文字
硬體代碼頁(英語:Hardwarecodepage)
磁性墨水字元識別碼(英語:Magneticinkcharacterrecognition)
亂碼
可變長度編碼(英語:Variable-widthencoding)
字元集
閱論編UnicodeUnicode
萬國碼聯盟
通用字元集
Unicode
碼位
Unicode區段
通用字元集字元(英語:UniversalCharacterSetcharacters)
Unicode字元特性(英語:Unicodecharacterproperty)
Unicode字元平面對映
私人使用區
字元通用字元集字元(英語:UniversalCharacterSetcharacters)
位元組順序記號
CombiningGraphemeJoiner(英語:CombiningGraphemeJoiner)
左至右符號及右至左符號
軟連字元(英語:Softhyphen)
連詞字元
零寬連字
零寬不連字
零寬空格
列表
Unicode字元列表
中日韓統一表意文字
組合字元
Unicode中的重覆字元(英語:DuplicatecharactersinUnicode)
Unicode數字
Unicode收錄的文字
空格
Unicode符號
全形和半形
處理演算法
雙向文稿
萬國碼定序演算法
ISO14651(英語:ISO14651)
Unicode等價性
異體字選擇器
國際表意文字核心
Unicode編碼比較(英語:ComparisonofUnicodeencodings)
萬國碼二進制有序壓縮
UTF-16的八位元相容編碼方案
Punycode
萬國碼標準壓縮方案
UTF-1
UTF-7
UTF-8
UTF-16
UTF-32
UTF-EBCDIC(英語:UTF-EBCDIC)
組合字元
組合字元
Unicode相容字元
Unicode中的重覆字元(英語:DuplicatecharactersinUnicode)
Unicode等價性
同形字
預組字元
Unicode中的拉丁文字預組字元(英語:ListofprecomposedLatincharactersinUnicode)
Z-變體
異體字選擇器
區域指示符
菲茨派屈克度量
使用
國際化域名
Unicode與電子郵件(英語:Unicodeandemail)
Unicode字型
Unicode與HTML(英語:UnicodeandHTML)
XML與HTML字元實體參照列表
字元值參照
Unicode輸入法
國際表意文字核心
相關標準
通用當地數據儲存庫
GB18030
ISO/IEC8859
ISO15924
相關主題
Unicode
CSUR
表意文字小組
國際萬國碼部件
漢字統一化(英語:Hanunification)
惡搞RFC#4042(UTF-9/UTF-18)
Unicode收錄的文字收錄文字
組合字元
附加符號
標點符號
空格
Unicode數字
現代文字
Adlamalphabet(英語:Adlamalphabet)
阿拉伯文字
阿拉伯語附加符號(英語:Arabicdiacritics)
亞美尼亞字母
峇里字母
巴姆穆文字
巴塔克文(英語:Batakalphabet)
孟加拉文
注音符號
盲文
布希德文
緬文
加拿大原住民音節文字
Chakmaalphabet(英語:Chakmaalphabet)
占語字母
Cherokeesyllabary(英語:Cherokeesyllabary)
中日韓統一表意文字
西里爾字母
德瑟雷特文(英語:Deseretalphabet)
天城文
吉茲字母
喬治亞字母
希臘字母
古吉拉特文
GunjalaGondiLipi(英語:GunjalaGondiLipi)
古木基文
諺文
哈乃斐羅興亞文字
朝鮮漢字
Hanunó'oalphabet(英語:Hanunó'oalphabet)
希伯來字母
希伯來語附加符號(英語:Hebrewdiacritics)
平假名
爪哇字母
日本漢字
卡納達文
片假名
KayahLialphabet(英語:KayahLialphabet)
高棉文
寮文字
Unicode中的拉丁字母
絨巴文
Limbualphabet(英語:Limbualphabet)
老傈僳文
布吉斯文(英語:Lontaraalphabet)
馬拉雅拉姆文
Gondiwriting(英語:Gondiwriting)
MendeKikakuiscript(英語:MendeKikakuiscript)
Medefaidrin(英語:Medefaidrin)
柏格理苗文
傳統蒙古文
Mropeople(英語:Mropeople)
西非書面字母
西雙版納傣文
PrachalitNepalalphabet(英語:PrachalitNepalalphabet)
女書
OlChikialphabet(英語:OlChikialphabet)
奧里亞文
Osagealphabet(英語:Osagealphabet)
奧斯曼亞字母
PahawhHmong(英語:PahawhHmong)
PauCinHau(英語:PauCinHau)
Rejangalphabet(英語:Rejangalphabet)
Samaritanalphabet(英語:Samaritanalphabet)
Saurashtraalphabet(英語:Saurashtraalphabet)
蕭伯納字母
僧伽羅文
索拉僧平字母
Sundanesealphabet(英語:Sundanesealphabet)
SylhetiNagari(英語:SylhetiNagari)
敘利亞字母
Tagbanwaalphabet(英語:Tagbanwaalphabet)
德宏傣文
老傣文
傣黯語
泰米爾文
泰盧固文
它拿字母
泰文字
藏文
提非納文字
底羅仆多文
Vaisyllabary(英語:Vaisyllabary)
WarangCiti(英語:WarangCiti)
彝文
古代文字
阿洪姆文
安納托利亞象形文字(英語:Anatolianhieroglyphs)
古北阿拉伯文(英語:AncientNorthArabian)
阿維斯陀文(英語:Avestanalphabet)
Bassaalphabet(英語:Bassaalphabet)
梵文(英語:Bhaiksukialphabet)
婆羅米文
卡里亞文(英語:Carianalphabets)
高加索阿爾巴尼亞字母(英語:CaucasianAlbanianalphabet)
科普特字母
楔形文字
賽普勒斯音節文字
多格拉語
聖書體
愛爾巴桑
格拉哥里字母
哥德字母
古蘭塔文
Hatranalphabet(英語:Hatranalphabet)
阿拉米字母
巴列維文
安息語
凱提文
佉盧文
Khojki(英語:Khojki)
Khudabadiscript(英語:Khudabadiscript)
線形文字A
線形文字B
呂西亞字母(英語:Lycianalphabet)
Lydianalphabet(英語:Lydianalphabet)
Mahajani(英語:Mahajani)
望加錫文(英語:Makassareselanguage)
Mandaicalphabet(英語:Mandaicalphabet)
摩尼字母
象雄語
Meitheiscript(英語:Meitheiscript)
麥羅埃字母
馬拉地文(英語:Modialphabet)
木爾坦文(英語:Multanialphabet)
納巴泰字母
歐甘字母
古匈牙利字母
古義大利字母
古彼爾姆文
古波斯楔形文字
粟特字母
突厥字母
帕米瑞拉文字(英語:Palmyrenealphabet)
八思巴字母
腓尼基字母
巴列維文字
盧恩字母
夏拉達文
悉曇文字
粟特字母
南阿拉伯字母
索永布字母
貝貝因字母
塔卡里文字(英語:Takrialphabet)
西夏文
烏加里特字母
札那巴札爾方形字母
標記文字
杜普洛伊速記(英語:Duployanshorthand)
薩頓手語譜寫
符號
Unicode中的宗教與政治符號(英語:ReligiousandpoliticalsymbolsinUnicode)
貨幣符號
Unicode中的數學運算子與符號(英語:MathematicaloperatorsandsymbolsinUnicode)
Unicode中的音標符號
哏圖標
閱論編Unicode區段一覽文字歐洲文字Ⅰ現代文字與儀式文字拉丁(基本 ·補充 ·擴展-A ·擴展-B ·擴展-C ·擴展-D ·擴展-E ·擴展-F ·擴展-G ·擴展附加 ·連字 ·國際音標擴展 ·音標擴展 ·音標擴展補充) ·希臘和科普特(擴展 ·數字) ·科普特 ·西里爾(補充 ·擴展-A ·擴展-B ·擴展-C ·擴展-D) ·格拉哥里(補充) ·亞美尼亞(連字) ·喬治亞(擴展 ·補充)修飾符號(聲調 ·佔位 ·上下標) ·組合附加符號(擴充 ·補充 ·符號用 ·組合半符號)歐洲文字Ⅱ古代文字與其他文字線形文字A ·線形文字B(音節 ·表意 ·數字) ·賽普勒斯 ·賽普勒斯-米諾斯 ·古安納托利亞(呂基亞 ·卡里亞 ·呂底亞) ·古義大利 ·盧恩 ·古匈牙利 ·哥特 ·愛爾巴桑 ·高加索阿爾巴尼亞 ·維斯庫奇 ·古彼爾姆 ·歐甘 ·蕭伯納中東文字Ⅰ現代文字與儀式文字希伯來(表達形式) ·阿拉伯(補充 ·擴展-A ·擴展-B ·擴展-C ·表達形式-A ·表達形式-B) ·敘利亞(補充) ·撒瑪利亞 ·曼達安 ·雅茲迪中東文字Ⅱ古代文字古北阿拉伯 ·古南阿拉伯 ·腓尼基 ·帝國亞蘭 ·摩尼 ·碑刻帕提亞 ·碑刻巴列維 ·詩篇巴列維 ·阿維斯陀 ·花剌子模 ·埃利邁 ·納巴泰 ·巴爾米拉 ·哈特拉楔形文字與象形文字楔形文字(數字和標點 ·早期王朝) ·烏加里特 ·古波斯 ·埃及聖書體(格式控制) ·麥羅埃文(草書體 ·聖書體) ·安納托利亞象形南亞和中亞文字Ⅰ印度官方文字天城(擴展 ·擴展-A ·吠陀擴展) ·孟加拉 ·古木基 ·古吉拉特 ·奧里亞 ·泰米爾 ·泰盧固 ·卡納達 ·馬拉雅拉姆南亞和中亞文字II其他現代文字它拿 ·僧伽羅(古數字) ·尼瓦爾 ·藏 ·蒙古(補充) ·林布 ·梅泰(擴展) ·穆羅 ·瓦蘭齊地 ·桑塔利 ·查克馬 ·絨巴 ·索拉什特拉 ·馬薩拉姆貢德 ·貢賈爾貢德 ·文喬 ·托托 ·唐薩 ·蒙達里南亞和中亞文字Ⅲ古代文字婆羅米 ·佉盧 ·拜克舒基 ·八思巴 ·瑪欽 ·札那巴札爾方形 ·索永布 ·古突厥 ·古粟特 ·粟特 ·回鶻南亞和中亞文字Ⅳ其他歷史文字錫爾赫特 ·凱提 ·夏拉達 ·塔克里 ·悉曇 ·馬哈賈尼 ·科傑基 ·庫達瓦迪 ·木爾坦 ·底羅僕多 ·莫迪 ·南迪城文 ·古蘭塔 ·迪維希阿庫魯 ·阿洪姆 ·索拉僧平 ·多格拉東南亞文字泰 ·寮 ·緬甸(擴展-A ·擴展-B) ·高棉(符號) ·傣納 ·新傣仂 ·老傣仂 ·傣越 ·克耶 ·占 ·救世苗 ·創世紀苗 ·包欽豪 ·哈乃斐羅興亞印尼和大洋洲文字菲律賓(他加祿 ·哈努諾 ·布希德 ·塔格班瓦) ·卡維 ·布吉 ·峇里 ·爪哇 ·勒姜 ·巴塔克 ·巽他(補充) ·望加錫東亞文字漢字(擴展-A ·擴展-B ·擴展-C ·擴展-D ·擴展-E ·擴展-F ·擴展-G ·擴展-H ·相容 ·相容補充 ·部首 ·部首補充 ·筆畫 ·漢文訓讀 ·表意文字符號和標點) ·表意文字描述字元 ·注音(擴展) ·假名(平假名 ·片假名 ·語音擴展 ·補充 ·擴展-A ·擴展-B ·小型假名) ·半形全形 ·諺文(擴展-A ·擴展-B ·相容 ·諺文音節) ·彝(部首) ·女書 ·傈僳(補充) ·柏格理苗 ·西夏(部件 ·補充) ·契丹小字非洲文字衣索比亞(補充 ·擴展 ·擴展-A ·擴展-B) ·奧斯曼亞 ·提非納 ·西非 ·瓦伊 ·巴穆姆(補充) ·巴薩 ·門地奇卡奎 ·阿德拉姆 ·梅德法伊德林美洲文字切羅基(補充) ·加拿大原住民(擴展 ·擴展-A) ·歐塞奇 ·德瑟雷特符號標記系統點字圖案 ·音樂符號(拜占庭 ·茲納緬尼耶 ·古希臘) ·迪普盧瓦耶速記(格式控制) ·手語書寫標點符號一般標點(ASCII ·拉丁-1 ·補充) ·中日韓符號和標點(表意文字) ·CJK相容(半形全形 ·小寫變體 ·豎排)字母數字符號字母式(羅馬符號) ·數學 ·阿拉伯數學 ·圍繞(補充) ·CJK圍繞(補充) ·CJK相容技術符號控制圖片 ·雜項技術 ·OCR數字ASCII數字(全形) ·通用印度 ·科普特閏餘 ·算籌 ·楔形文字 ·印度西亞格 ·因努伊特 ·瑪雅 ·數字形式 ·奧斯曼西亞格 ·魯米 ·古僧伽羅 ·上下標數學符號箭頭(補充-A ·補充-B ·補充-C ·雜項和箭頭) ·數學字母數字符號(阿拉伯數學 ·字母式) ·數學運算子(補充 ·雜項數學-A ·雜項數學-B) ·幾何圖形(擴展 ·製表符 ·方塊元素)繪文字與象形什錦(裝飾符號) ·表情 ·雜項 ·雜項和圖符 ·補充和圖符 ·擴展-A ·交通地圖其他符號鍊金術 ·古代符號 ·貨幣 ·遊戲符號(西洋棋和國際跳棋 ·棋類 ·多米諾 ·麻將 ·撲克 ·花色) ·雜項和箭頭 ·遺留計算 ·易經符號(兩儀四象八卦 ·六十四卦 ·太玄經) ·斐斯托斯圓盤其他特殊 ·標籤 ·變體選擇符(補充) ·私用區(補充私用區-A ·補充私用區-B) ·代用區(高代用區 ·低代用區) ·非字元
閱論編EmojiUnicode背景
區段
裝飾符號
表情符號(英語:Emoticons(Unicodeblock))
雜項符號
雜項符號和象形文字
補充符號和象形文字(英語:SupplementalSymbolsandPictographs)
交通和地圖符號
通用字元集
區域指示符
相關人物
傑里米·波爾吉(英語:JeremyBurge)
馬克·戴維斯(英語:MarkDavis(Unicode))
葉密豪
栗田穰崇
字型
AppleColorEmoji(英語:AppleColorEmoji)
Noto
Quivira(英語:Quivira(typeface))
SegoeUI
知名表情圖示
🍆
🍑
💩
😂
😅
文化影響
《Emoji猜猜猜(英語:Emogenius)》
Emoji域名
《表情符號電影》
表情圖示百科
emojli
微笑(神秘博士)(英語:Smile(DoctorWho))
世界表情圖示日
列表
Emoji列表
🙂
規範控制
GND:4343497-6
LCCN:sh98000843
NKC:ph571669
取自「https://zh.wikipedia.org/w/index.php?title=Unicode&oldid=73708700」
分類:Unicode區段字元集Unicode隱藏分類:維基百科和維基數據上的官方網站不同包含GND識別碼的維基百科條目包含LCCN識別碼的維基百科條目包含NKC識別碼的維基百科條目
導覽選單
個人工具
沒有登入討論貢獻建立帳號登入
命名空間
條目討論
臺灣正體
不转换简体繁體大陆简体香港繁體澳門繁體大马简体新加坡简体臺灣正體
查看
閱讀編輯檢視歷史
更多
搜尋
導航
首頁分類索引特色內容新聞動態近期變更隨機條目資助維基百科
說明
說明維基社群方針與指引互助客棧知識問答字詞轉換IRC即時聊天聯絡我們關於維基百科
工具
連結至此的頁面相關變更上傳檔案特殊頁面靜態連結頁面資訊引用此頁面維基數據項目
列印/匯出
下載為PDF可列印版
其他專案
維基共享資源維基教科書
其他語言
AfrikaansAlemannischአማርኛالعربيةঅসমীয়াAsturianuAzərbaycancaBoarischБеларускаяБеларуская(тарашкевіца)БългарскиभोजपुरीবাংলাBrezhonegBosanskiCatalàMìng-dĕ̤ng-ngṳ̄ᏣᎳᎩکوردیČeštinaЧӑвашлаCymraegDanskDeutschΕλληνικάEnglishEsperantoEspañolEestiEuskaraفارسیSuomiFrançaisGaeilgeGalegoગુજરાતી客家語/Hak-kâ-ngîעבריתहिन्दीHrvatskiMagyarՀայերենInterlinguaBahasaIndonesiaIlokanoÍslenskaItaliano日本語JawaქართულიҚазақшаಕನ್ನಡ한국어कॉशुर/کٲشُرKurdîКыргызчаLatinaLinguaFrancaNovaLietuviųLatviešuमैथिलीОлыкмарийМакедонскиമലയാളംМонголဘာသာမန်मराठीBahasaMelayuမြန်မာဘာသာPlattdüütschनेपालीनेपालभाषाNederlandsNorsknynorskNorskbokmålOccitanਪੰਜਾਬੀPolskiPortuguêsRomânăРусскийसंस्कृतम्СахатылаScotsسنڌيSrpskohrvatski/српскохрватскиසිංහලSimpleEnglishSlovenčinaSlovenščinaShqipСрпски/srpskiSundaSvenskaKiswahiliதமிழ்తెలుగుТоҷикӣไทยTagalogTürkçeئۇيغۇرچە/UyghurcheУкраїнськаاردوTiếngViệtWalon吴语მარგალურიייִדישYorùbá文言Bân-lâm-gú粵語
編輯連結
延伸文章資訊
- 1中文翻译日文- 编码日语怎么说 - 沪江网校
沪江日语单词库提供编码日语怎么说、编码用日语怎么说、编码中文翻译成日文、中文翻译日文、日文怎么说、日文怎么读、日文怎么写、解释、用法、例句等信息, ...
- 251307-法學日文選讀(二) 歷史開課清單 - 東海大學課程資訊網
- 3[轉貼] 各種語系的unicode對應以及local編碼方式 - 聽打逐字稿
日文. Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼) 備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理 locale編碼: Shift-JIS, EU...
- 4"編碼規則"日文- 日語翻譯 - 查查詞典
編碼規則日文翻譯:コーディングルール…,點擊查查權威綫上辭典詳細解釋編碼規則日文怎麽說,怎麽用日語翻譯編碼規則,編碼規則的日語例句用法和解釋。
- 5Unicode - 維基百科,自由的百科全書
Unicode除了視覺上的字形、編碼方法、標準的字元編碼資料外,還包含了字元特性( ... 舉例來說,全形格式區段包含了主要的拉丁字母的全形格式,在中文、日文、以及韓文 ...