中日韓統一表意文字 - 维基百科
文章推薦指數: 80 %
中日韓統一表意文字(英語:CJK Unified Ideographs),也稱統一漢字、統漢碼(英語:Unihan), ... 然而,漢字中有「同形字」的現象,有兩個或多個讀音與字義,雖然字源不同,卻 ...
中日韓統一表意文字
一組中文,日文和韓文統一碼區段符號
語言
監視
編輯
「Unihan」重新導向至此。
關於其他用法,請見「Unihan(消歧義)」。
此條目介紹的是中日韓統一表意文字。
關於Unicode中「中日韓統一表意文字區塊」的完整字元列表,請見「中日韓統一表意文字列表」。
注意:本頁面含有Unihan新版漢字。
有關字元可能會錯誤顯示,詳見Unicode擴充漢字。
本頁面包含越南語的喃字,部分作業系統及瀏覽器需要特殊字母與符號支援才能正確顯示為喃字,否則可能出現亂碼、問號、空格等其它符號。
中日韓統一表意文字(英語:CJKUnifiedIdeographs),也稱統一漢字、統漢碼(英語:Unihan),目的是要把分別來自中文、日文、韓文、越南文、壯文、琉球文中,起源相同、本義相同、形狀一樣或稍異的表意文字,在ISO10646及Unicode標準賦予相同編碼。
所謂「起源相同、本義相同」、主要是漢字,包括繁體字、簡化字、日本漢字(漢字/かんじ)、韓國漢字(漢字/한자)、琉球漢字(漢字/ハンジ)、越南的喃字(𡨸喃/ChữNôm)與儒字(𡨸儒/ChữNho)、方塊壯字(𭨡倱/sawgun)。
目次
1歷史
2版本
3成員機構
4收字來源
4.1最初期統一漢字
4.2擴展A區
4.3擴展B區
4.4Unicode4.1漢字
4.5Unicode5.1漢字
4.6擴展C區
4.7擴展D區
4.8擴展E區
4.9急用漢字
4.10擴展F區
4.11擴展G區
5認同原則與原字集分離原則
5.1起源不同原則
5.2學界批評
6統漢字資料庫
7批評
7.1收字過少
7.2收字過多
7.3準則矛盾
7.4漢字〇
8已統一漢字
9未統一漢字
10技術問題
10.1擴展B區的問題
10.2錯誤統一的問題
11注釋
12參考文獻
13外部連結
14參見
歷史編輯
1978年,日本基於ISO2022,制訂了全世界最早的漢字編碼JISC6226。
1980年代,中國大陸、臺灣、韓國則各自制訂了自己的規範。
這些規範彼此之間並無關聯。
若要在一份檔案中同時使用,則要以跳脫字元的方式來交換。
1980年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。
同年,臺灣制定了三位元組的中文資訊交換碼,這是第一個期望可以一致處理中國、日本、韓國漢字的編碼。
之後,美國的國會圖書館採用了此標準,並另外命名為東亞編碼字元(EastAsiaCodedCharacter,EACC,ANSI/NISOZ39.64)。
1984年,ISO的文字編碼委員會(ISO/TC97/SC2)決議制訂出一套編碼規格(ISO10646),是以交換文字集的方式來統一處理世界的文字。
並成立了工作小組(ISO/TC97/SC2/WG2)。
這個編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。
但若如此,中國當時所制訂的編碼都無法加入,因而反對,並在1989年提出各國漢字統合集合(HanCharacterCollection,HCC)的構想。
1990年完成了ISO10646的初版草案(DIS10646)。
漢字使用32位元來表示。
並將各國的漢字編碼原封不動地加入。
但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。
為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG2特別設定了中日韓聯合研究小組(CJK-JRG,JointResearchGroup,為表意文字小組的前身),以持續討論。
另一方面,1987年,全錄的JoeBecker和LeeCollins開發了統合處理全世界所有文字的統一碼。
1989年發表了統一碼概要。
基本為16位元。
於是,中、日、韓的漢字統合了。
基本方針為以16位元處理所有文字。
1990年,完成了基於此方針的最終草案。
隔年1991年1月,大致同意此方案的企業成立了統一碼聯盟。
中、日、韓中類似的漢字使用約二萬多個字。
為了未來擴充,保留了三萬個漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,否決了ISO/IEC10646的初版草案。
基於中國與統一碼聯盟的提議,ISO10646和統一碼成立了中日韓聯合研究小組。
中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO10646和統一碼的統一漢字編碼。
年尾,完成了UnifiedRepertoireandOrdering(URO)。
1992年,URO加入ISO10646的第二版。
但是,發現了一些缺失,之後進行了修正。
1993年5月,正式制訂最初的「中日韓統一表意文字」,位於U+4E00–U+9FFF這個區域,共20,902個字。
還有一個漢字「〇」(碼位U+3007),被當成數字放入了符號和標點區。
一個月後,制訂了統一碼1.1。
1999年,依據ISO/IEC10646的第17個修正案(Amendment17)訂定擴充區A,於U+3400–U+4DFF加入6,582個字。
2001年,依據ISO/IEC10646-2,新增擴充區B,包含42,711個漢字。
位於U+20000–U+2A6FF。
但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。
2005年,依據ISO/IEC10646:2003的第1個修正案(Amendment1),基本多文種平面增加U+9FA6–U+9FBB,共22個漢字。
2009年,統一碼5.2擴充區C增加U+2A700–U+2B734,基本多文種平面增加U+9FC4–U+9FCB。
2010年,統一碼6.0擴充區D增加U+2B740–U+2B81F。
2012年,統一碼7.0基本多文種平面增加1個漢字:U+9FCC。
2015年,統一碼8.0擴充區E增加U+2B820–U+2CEAF,基本多文種平面增加U+9FCD–U+9FD5。
2017年,統一碼10.0擴充區F增加U+2CEB0–U+2EBEF,基本多文種平面增加U+9FD6–U+9FEA。
2018年,統一碼11.0基本多文種平面末尾增加5個漢字:U+9FEB–U+9FEF。
2020年,統一碼13.0增加4,969個漢字,其中4,939個位於第三平面的擴充區G,碼位爲U+30000–U+3134A。
同時,亦在基本區增加13字:U+9FF0–U+9FFC,在擴充A區增加10字:U+4DB6–U+4DBF,在擴充B區增加7字:U+2A6D7–U+2A6DD。
另外,第三平面的U+31400–U+33D1F預計放置小篆,U+33E00–U+355FF預計放置甲骨文,相關提案已經提交。
按路線圖,該平面還會收錄金文、簡帛文、陶文、鳥蟲書等[1]。
版本編輯
ISO10646版本
Unicode版本
新增
置放平面
字數
累計字數
1993
1.0
中日韓統一表意文字(U+4E00–U+9FA5)
基本多文種平面
20,902
20,915
1個漢字(U+3007,〇),於中日韓符號和標點區
基本多文種平面
1
位於「中日韓相容表意文字」中但實則獨一的漢字(U+FA0E﨎、U+FA0F﨏、U+FA11﨑、U+FA13﨓、U+FA14﨔、U+FA1F﨟、U+FA21﨡、U+FA23﨣、U+FA24﨤、U+FA27﨧、U+FA28﨨、U+FA29﨩)[註1]
基本多文種平面
12
2000
3.0
中日韓統一表意文字擴充區A(U+3400–U+4DB5)
基本多文種平面
6,582
27,497
2001
3.1
中日韓統一表意文字擴充區B(U+20000–U+2A6D6)
第二輔助平面
42,711
70,208
2003第一修訂版
4.1
HKSCS-2004中未加入ISO10646的漢字(U+9FA6–U+9FB3,龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB18030-2000中未加入ISO10646的印刷業常用的偏旁和字形部件(U+9FB4–U+9FBB,龴龵龶龷龸龹龺龻)
基本多文種平面
22
70,230
2003第四修訂版
5.1
7個日語漢字[3](U+9FBC–U+9FC2,龼龽龾龿鿀鿁鿂),U+4039䀹拆分為U+4039䀹和U+9FC3鿃[4]
基本多文種平面
8
70,238
2003第五修訂版
5.2
中日韓統一表意文字擴充區C(U+2A700–U+2B734)
第二輔助平面
4,149
74,395
2003第六修訂版
2個日語用漢字(ARIB#47、#95,U+9FC4鿄,U+9FC5鿅)、1個新增漢字(ARIB#93,U+9FC6鿆)、在HKSCS-2004推出後新增的5個香港漢字[5](U+9FC7–U+9FCB,鿇鿈鿉鿊鿋)
基本多文種平面
8
2010
6.0
中日韓統一表意文字擴充區D(U+2B740–U+2B81D)
第二輔助平面
222
74,617
2012
6.1
1個漢字(U+9FCC鿌)
基本多文種平面
1
74,618
2015
8.0
中日韓統一表意文字擴充區E(U+2B820–U+2CEA1)
第二輔助平面
5,762
80,389
「急用漢字」:《通用規範漢字表》餘下未收入的3個漢字(U+9FCD–U+9FCF,鿍䃮䥑),1個從U+4CA4(鿐)分離出來的字U+9FD0(鿐),5個其他圖書用字及化學元素用字(U+9FD1–U+9FD5,鿑鿒鿓鎶鿕)
基本多文種平面
9
2017
10.0
中日韓統一表意文字擴充區F(U+2CEB0–U+2EBE0)
第二輔助平面
7,473
87,883
21個漢字(U+9FD6–U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪)
基本多文種平面
21
2018
11.0
5個漢字(U+9FEB–U+9FEF,鿫鿬鉨鿮鿯),前三個是新命名的化學元素用字,後兩字來自日本
基本多文種平面
5
87,888
2020
13.0
中日韓統一表意文字擴充區G(U+30000–U+3134A)
第三輔助平面
4939
92,857
急用科學與技術用字[6](U+9FF0–U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10個需分離的漢字[7][8][9](U+4DB6–U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿)
基本多文種平面
23
崑曲工尺譜用字[10](U+2A6D7–U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝)
第二輔助平面
7
2021
14.0
3個漢字(U+9FFD–U+9FFF,鿽鿾鿿)
基本多文種平面
3
92,866
2個漢字(U+2A6DE–U+2A6DF,𪛞𪛟)
第二輔助平面
2
4個漢字(U+2B735–U+2B738,𫜵𫜶𫜷𫜸)
第二輔助平面
4
成員機構編輯
Unicode協會
中華人民共和國
香港(政府資訊科技總監辦公室轄下中文介面諮詢委員會)
澳門(資訊系統中文編碼工作小組,由行政公職局協調)
中華民國(台北市電腦商業同業公會)
日本
北韓
大韓民國
越南
馬來西亞(2008年11月第31次IRG會議加入)
英國(https://github.com/unicode-org/uk-source-ideographs/(頁面存檔備份,存於網際網路檔案館))
大藏經文字資料庫委員會(大蔵経テキストデータベース委員会,SAT)收字來源編輯
最初期統一漢字編輯
最初期的統一漢字共20,902字,其範圍為:U+4E00–U+9FA5。
其收字來源包括了以下字集:
類別
來源代碼
名稱
字數
中國大陸國標源(G)
G0
GB2312-80
6763字
G1
GB12345-90
2352字(含58個香港字和92個吏讀字,不包括和GB2312重複的字)
G3
GB7589-87繁體版本
7237字
G5
GB7590-87繁體版本
7039字
G7
現代漢語通用字表
42字(G0,1,3,5,8未包括的字)
G8
GB8565.2-89
290字(G0,1,3,5未包括的字)
臺灣源(T)
T1
CNS11643-1986第一字面
5401+9字計量用漢字
T2
CNS11643-1986第二字面
7650字
TE
CNS11643-1986第十四字面
6319+239字中文資訊交換碼特字+10個全錄字元集(XeroxCharacterCodeStandard,XCCS)特字
日本源(J)
J0
JISX0208-90
6335字+非漢字1個(仝)[11]J1
JISX0212-90
5801字
韓國源(K)
K0
KSC5601-87
4888字(含268個重見字[12])
K1
KSC5657-91
2856字
委員會源(U)
KSC5601-1987(當中重複的漢字)
美國國會圖書館之東亞字元編碼(EastAsiaCharacterCode,簡稱EACC;標準號ANSIZ39.64-1989)[13]
大五碼
中文資訊交換碼第一字面
GB12052-89(漢字部分)
JEF(富士通標準)
中國大陸電報碼
臺灣電報碼(CCDC)
全錄中文編碼
人名用漢字准用字體表(人名用漢字許容字型表;日本)
IBM選取的日本和韓國表意文字
其中,統一碼技術委員會源(U源)是指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。
並且此來源的字集不適用原字集分離原則(見稍後)。
擴充A區編輯
擴充A區包含有6,592個漢字,位置在U+3400—U+4DBF。
這6千多個漢字分別從以下字典或字集中取得:
類別
來源代碼
名稱
字數
中國大陸國標源(G)
G_KX
《康熙字典》
5357字(獨有1892字)
G_HZ
《漢語大字典》
5888字(獨有339字)
G3
GB7589-87繁體版本
2391字
G5
GB7590-87繁體版本
1226字
G7
現代漢語通用字表
120字
GS
新加坡漢字
226字
臺灣源(T)
T3
CNS11643-1992第三字面(原本為CNS11643-1986第十四字面)新加入字元
2178字
T4
CNS11643-1992第四字面
2917字
T5
CNS11643-1992第五字面
395字
T6
CNS11643-1992第六字面
197字
T7
CNS11643-1992第七字面
133字
TF
CNS11643-1992第十五字面
86字
日本源(J)
JA
日本資訊科技零售商統一當代表意文字(1993)
574字
韓國源(K)
K2
PKSC5700-1:1994
K3
PKSC5700-2:1994
1834字
越南源(V)
V0
TCVN5773:1993
138字
V1
TCVN6056:1995
擴充B區編輯
擴充B區包含有42,717個漢字,位置在U+20000—U+2A6DD。
根據IRGN777號檔案(頁面存檔備份,存於網際網路檔案館),這四萬多個漢字分別從以下字典或字集中取得:
類別
來源代碼
名稱
字數
中國大陸國標源(G)
G_KX
《康熙字典》
18486字(包括一個在補遺篇中出現的漢字)
G_HZ
《漢語大字典》
28914字
G_CY
《辭源》
66字
G_CH
《辭海》
247字
G_HC
《漢語大詞典》
553字
G_BK
《中國大百科全書》
86字
G_FZ
北大方正排版系統
65字
G_4K
《四庫全書》
522字
香港源(H)
H
香港增補字符集(HKSCS)
1081字
臺灣源(T)
T4
CNS11643-1992第四字面
3408字
T5
CNS11643-1992第五字面
8111字
T6
CNS11643-1992第六字面
5934字
T7
CNS11643-1992第七字面
6299字
TF
CNS11643-1992第十五字面
6401字
日本源(J)
J3
JISX0213:2000,level3
25字
J3A
JISX0213:2004,level3
1字
J4
JISX0213:2000,level4
277字
韓國源(K)
K4
PKS5700-3:1998
166字
朝鮮源(KP)
KP0
KPS9566-97
KP1
KPS10721-2000
5766字
越南源(V)
V2
VHN01:1998
2290字
V3
VHN02:1998
425字
這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。
另外,在U+2F800—U+2FA1D的位置,放了542個來自臺灣的相容漢字。
Unicode4.1漢字編輯
為使Unicode向下相容GB18030和香港增補字符集(HKSCS)的所有漢字,而擴充C區又遲遲未能出籠,在Unicode4.1版中引進了14個香港增補字符集的用字和8個GB18030用字。
該22字被編於U+9FA6–U+9FBB的位置。
另外,在U+FA70—U+FAD9的位置,放了106個來自北韓的相容漢字。
Unicode5.1漢字編輯
在2008年4月推出的Unicode5.1版本,收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC–U+9FC2)[14],和鿃(大字加兩個入字,就如陝西省的陝字換上目字旁)(U+9FC3)。
本來Unicode3.0收錄了目字旁加夾(大字加兩個人字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(AndrewWest)和井作恆(JohnH.Jenkins)申請追加此字[15]。
擴充C區編輯
於2009年10月發布的Unicode5.2涵蓋了擴充C區,共收錄4,149個漢字,包括來自中國大陸、澳門、臺灣、日本、越南等尚未被編碼的漢字。
位置在U+2A700—U+2B734。
這四千多個漢字分別從以下字典或字集中取得:
類別
來源代碼
名稱
字數
中國大陸國標源(G)
G_BK
《中國大百科全書》
74字
G_FZ
北京大學方正排版系統
1字
G_HZ
《漢語大字典》
1字
G_HC
《漢語大詞典》
14字
G_GH
《古代漢語詞典》
50字
G_GJZ
商務印書館用字
61字
G_XC
《現代漢語詞典》
25字
G_CH
《辭海》
264字
G_KX
《康熙字典》及補遺
6字
G_CYY
中國測繪科學研究院用字
55字
G_ZFY
《漢語方言大辭典》
202字
G_ZJW
《殷周金文集成引得》
366字
臺灣源(T)
TC
CNS11643-1992第12字面
634字
TD
CNS11643-1992第13字面
767字
TE
CNS11643-1992第14字面
350字
澳門源
MAC
澳門資訊系統字集(ColectâneadosCaracteresChinesesdosSistemasInformáticosdeMacau)
16字
日本源(J)
JK
日本國字集(JapaneseKOKUJICollection)
367字
韓國源(K)
K5
韓國表意文字小組漢字集第五版(2001,KoreanIRGHanjaCharacterSet5thEdition:2001)
404字(當中主要包含古代字例)
朝鮮源(KP)
KP1
KPS10721:2003
5357字(獨有1892字)
越南源(V)
V4
《喃字詞典》(TừđiểnchữNôm)[阮光紅(NguyễnQuangHồng),2006]
《岱喃字字典》(TừđiểnchữNômTày,HoàngTriềuÂn,2006)
《沔南喃字榜查》(BảngtrachữNômmiềnNam,VũVănKính,1994)
委員會源(U)
ABCChinese-EnglishDictionary(德范克,JohnDeFrancis等,第二版(1998),火奴魯魯:夏威夷大學出版社)
耶穌基督後期聖徒教會香港分會用字
Mathews'Chinese-EnglishDictionary(RobertH.Mathews(1975),劍橋:哈佛大學出版社)
宋本《廣韻》
《中國鳥類系統檢索》(鄭作新等,北京:科學出版社,2000)
段玉裁《說文解字注》
擴充D區編輯
擴充D區包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下半年發布的Unicode6.0中,編碼範圍為U+2B740–U+2B81F(實際有字元為U+2B740–U+2B81D)。
擴充D區原本計劃放置擴充C區未收錄的16,000多個漢字,但在2007年5月,臺灣復原了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[16],此後擴充D區縮減到大約10,000字左右[17]。
由於各種阻礙,協定先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。
提出的急用漢字只有二百二十二字(本來有二百二十三字,但日本撤回其中一字)。
現在文字小組把第二部分字集延後到擴充E區。
類別
來源代碼
名稱
字數
中國大陸國標源(G)
G_CH
《辭海》
1字
G_IDC
公安部身分證系統人名和地名用字
31字
G_XC
《現代漢語詞典》
4字
G_ZH
《中華字海》
39字
臺灣源(T)
TB
CNS11643-2007第11平面24字(教育部閩客方言用字)
24字
日本源(J)
JH
通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム,日本經濟產業省提出的人名和地名用字)
108字
委員會源(U)
Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字
15字
擴充E區編輯
擴充E區亦在2015年6月17日的Unicode8.0中發布,放置於編碼範圍U+2B820–U+2CEAF。
擴充E區本應包含擴充D區未收錄的10000多個漢字,但在2008年11月,中國大陸以「難以逐個找證據」為理由,復原了3215個漢字[18],這些漢字主要用於地名、人名、姓氏,亦有數百個《中國大百科全書》中的文字。
這是繼台灣復原6545字之後的又一次大規模復原。
之後又經過長時間的檢查處理,E區最終定稿,共有5762字[19]。
這些漢字來源如下:
類別
來源代碼
名稱
字數
中國大陸國標源(G)
G_BK
《中國大百科全書》
15字
G_CH
《辭海》
112字
G_CY
《辭源》
3字
G_CYY
中國測繪科學院用字(地名用字)
98字
G_DZ
地質出版社用字
1字
G_GH
《古代漢語詞典》
176字
G_HC
《漢語大詞典》
7字
G_IDC
公安部身分證系統人名和地名用字
36字
G_JZ
商務印書館用字
147字
G_KX
《康熙字典》
22字
G_RM
人民日報用字
3字
G_WZ
漢語大詞典出版社用字
12字
G_XC
《現代漢語詞典》
57字
G_XH
《新華字典》
4字
G_ZFY
《漢語方言大辭典》
712字
G_ZJW
《殷周金文集成引得》
1410字
臺灣源(T)
TC
CNS11643-1992第12平面323字(台灣人名用字)
323字
TD
CNS11643-1992第13平面595字(台灣人名用字)
595字
TE
CNS11643-1992第14平面339字(台灣人名用字)
339字
日本源(J)
JK
日本國字集
415字
澳門源(M)
MAC
澳門資訊系統字集
48字
委員會源(U)
UTC
從各處收集到的未收錄漢字
227字
越南源(V)
V4
《喃字詞典》(TừđiểnchữNôm)[阮光紅(NguyễnQuangHồng),2006]
1028字
《岱喃字字典》(TừđiểnchữNômTày,HoàngTriềuÂn,2006)
《沔南喃字榜查》(BảngtrachữNômmiềnNam,VũVănKính,1994)
急用漢字編輯
「急用漢字」是擴充E區整理後期,各地新發現並急於使用,又等不及放入擴充F區的字;和擴充E區一起收入Unicode8.0,位置在U+9FCD–U+9FD5;當中中國大陸在此處申請收入三字,連同擴充E區的字,通用規範漢字表的8105字至此全部收入。
擴充F區編輯
擴充F區在2017年6月20日的Unicode10.0中發布,編碼範圍為U+2CEB0–U+2EBEF。
擴充F區來源於新提交的一批漢字,主要包括一千多個方塊壯字及數千個佛經、古籍中的用字以及日本戶籍用字,共有7473字。
這些漢字的來源如下:
類別
來源代碼
名稱
字數
中國大陸國標源(G)
G_CY
《辭源》
122字
G_FC
《現代漢語規範詞典》
27字
G_IDC
公安部身分證用字
1字
G_LGYJ
《壯族嘹歌研究》
1字
G_OCD
《牛津英漢漢英詞典》
2字
G_PGLG
《壯族民歌文化叢書·平果嘹歌》
70字
G_XHZ
《新華大字典》
51字
G_Z
《古壯字字典》
995字
G_ZJW
《殷周金文整合引得》
33字
G_ZYS
《壯族人民的文化遺產——方塊壯字》《中國民族古文字研究》
2字
日本源(J)
JMJ
日本文字資訊基礎工程
1645字
韓國源(K)
KC
韓國歷史資訊中心
1793字
澳門源(M)
MAC
澳門資訊系統字集
22字
大藏經研究組(SAT)
USAT
《大正新修大藏經》(SAT版)
2884字
委員會源(U)
UTC
從各處收集到的未收錄漢字
1字
擴充G區編輯
於2020年3月10日公佈的Unicode13.0中在第三輔助平面收錄擴充區G的4,939個漢字,碼位為U+30000–U+3134A[20][21]。
這些漢字的來源如下(部分字元來自多於一個來源,所以下表總數多於收錄總數4,939字):
類別
來源代碼
名稱
字數
中國大陸國標源(G)
G_HZR
《漢語大字典》(第二版)
878字
G_PGLG
《壯族民歌文化叢書·平果嘹歌》
13字
G_Z
《古壯字字典》
1191字
韓國源(K)
KC
韓國歷史資訊中心(한국역사정보통합시스템)
428字
臺灣源(T)
T13
CNS11643第19字面(將設立的新平面)
347字
TB
CNS11643第11字面
3字
TC
CNS11643第12字面
2字
TD
CNS11643第13字面
1字
英國源(UK)
UK
IRGN2107R2
1566字
大藏經研究組(SAT)
USAT
《大正新修大藏經》(SAT版)
329字
委員會源(U)
UTC
從各處收集到的未收錄漢字
239字
認同原則與原字集分離原則編輯
「次」字的台灣教育部字形、大陸規範漢字、韓國的漢字、越南的漢字、日本的漢字。
表意文字認同原則(HanUnificationRule,又稱表意文字統合原則)與原字集分離原則(SourceSeparationRule,又稱來源字集分離原則、原規格分離原則),是兩個對立的原則,它們是Unicode整理中日韓統一表意文字的基礎。
東亞各國字形多有微妙的差異。
如「房」字的第一筆,韓國傳統漢字字形、臺灣教育部標準字體作撇「房」;香港教育參考字形、中國大陸規範作點「房」;日本標準作橫「房」。
又如「次」字的左旁,韓國採用傳統字形,首筆爲橫,次筆爲挑;臺灣教育部作兩橫;大陸、日本、香港等則作「冫」(俗稱兩點水)。
這種程度的差異,理想上是整併為一個字為佳。
否則,要是凡異體字都收進不同碼位裏,Unicode收錄的漢字就會過於臃腫,使用者搜尋時也會因異體問題而找不到想要的結果。
然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS編碼同時收錄了「剣」字與「劍」字,原本JIS檔案裏這兩個字可以並存。
如果採用整合字集後,它們會變成同一個字,就會造成使用上的困擾。
而且,如果將多個不同地區字形合併,會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)。
於是,表意文字認同原則與原字集分離原則就應運而生。
在表意文字認同原則下,Unicode「只對字(Character),而不對字形(Glyph)」編碼,會把同一字的不同字形(即異體字)合併。
好像上述的「次」字,在Unicode裏會整併成一個碼。
又例如不同地區而有不同寫法的部首,如「⻌(中國大陸規範、日本新字體)、⻍(港臺舊字形、韓國、日本舊字體)、⻎(臺灣教育部)」、「礻(中國大陸規範、臺灣教育部)、礻(日本新字體)、⺬(日本舊字體、韓國、港臺舊字形)」、「爫(中國大陸、港臺新字形)、⺥(舊字形)」等,會合併編碼。
這些部首的寫法差異就會交由字型處理。
比如說,使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下(如中易宋體、微軟雅黑體)便會出現「⻌、爫」;使用臺灣教育部標準字體(如微軟正黑體或新版細明體,但非舊版細明體[註2])就會出現「⻎、爫」等字形。
這大大解決了因地區而異之部首寫法。
至於原字集分離原則是指,在上述所列出之各種收字來源裏,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。
這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
比如「房」字,各地字集都沒有分別編碼,就只編進一個碼位,部首第一筆的寫法交由字型處理。
然而,「戶」、「户」、「戸」這三個字,在一些地區標準裏是分別編碼的,Unicode則以三個碼位來分別收錄它們。
上述的「剣」與「劍」也一樣,被安放到不同的碼位中。
基於上述運作,Unicode能大幅減少收錄漢字字數,同時讓地區編碼過渡至Unicode時,字集裏的字元不會有流失。
但是,原字集分離原則破壞了Unicode「只對字,而不對字形」編碼之原則,使某些漢字獲得兩個或多個編碼,亦遭受不少批評。
後來的一些重複漢字會使用「相容區」提供暫存編碼,可通過歸一化(normalization)步驟移除。
一般的漢字輸入法,以及多數漢字字型,也不支援相容區字元。
另外,原字集分離原則只適用於最初UnifiedRepertoireandOrdering(URO)的20,902字,換言之,由「擴充區A」開始就不再適用。
原因是個別地區提交了不少僅有十分輕微差異的字樣,比如台灣《異體字字典》裏的各種異體,要求Unicode分別編碼。
然而,那些字樣所建基的地區編碼,並非該地區的通用編碼,例如是中文標準交換碼(台灣實際通行的編碼是Big5碼)。
若Unicode全面採納,將會令Unicode對異體字的處理更混亂。
今天,異體字選擇器(VariationSequence)以及Adobe常用的CID字型等技術,已容許在一個Unicode編碼裏收錄和調用兩個或多個漢字字樣,原字集分離原則在今天已成爲過時技術的副產品。
起源不同原則編輯
留意的是,可以整併的字只限異體字。
如果有些漢字,它的音、義根本不一樣,是兩個不相同的字,即使它們外形相近,寫法差異比另一些整併的字少,但仍不能合併。
這規則稱爲起源不同原則(NoncognateRule)。
擧例說:「土」和「士」雖然形似,卻是兩個不同的字,我們不可以整併它們。
然而,日本、韓國、大陸、香港等地的「寺」字,與臺灣教育部的「寺」字,兩者頂部分別是「土」和「士」,但它們音義全同,是同一字的異體,於是就能夠整併。
其他起源不同的例子還有「朏」與「胐」(「月偏旁」與「肉偏旁」對立)、「胄」與「冑」(「肉底」與「冃底」對立),「柿」和「杮」(右方「市部件」與「巿部件」對立),「汨」和「汩」(右方「日部件」與「曰部件」對立),「陝」與「陜」(右旁「夾部件」與「㚒部件」對立)等。
然而,漢字中有「同形字」的現象,有兩個或多個讀音與字義,雖然字源不同,卻由同一字形表達出來。
比如漢字「芸芸眾生」的「芸」,與日本漢字「藝」字的新字型「芸」,是同形字。
要是這些同形字,在字形上確實相同而非相似(「芸」字的草頭雖然有三筆的「⺾」、四筆的「⺿」等不同寫法,但它們都指同一部件,沒有形成對立),就不會應用起源不同原則。
學界批評編輯
中文文字學學界對Unicode的原字集分離原則有不少批評,尤其是它令同一個異體部件時而分離,時而合併,在日常使用層面引伸了許多問題。
擧例說,「青」和「靑」、「淸」和「清」都在正常區域中作分離編碼,獲得兩個碼位;「晴」、「靖」、「精」雖也獲兩個碼位,但其中一個是在相容區中,日常難以應用;「請」、「情」、「蜻」、「靜」更只有一個碼位。
或例如,「直」和「直」、「植」和「植」是被整併的,可是「値」和「值」卻分離作兩個碼位。
Unicode的做法,沒有把含有相同異體部件的字全都合併,也沒有把它們全都分離,結果經常導致字形不一致,或者使用者無法選擇他希望使用的字形[22]。
其他漢字使用地區也有類似聲音。
例如「戋」和「㦮」兩個偏旁,前者爲「戔」的大陸簡化字,後者爲「戔」的日本新字型,在「残」和「残」、「浅」和「浅」、「践」和「践」等組合裏,就整併起來。
可是碰到「桟」和「栈」,卻不統合,分列U+685F與U+6808兩個碼位中。
這種情況被日本學者指爲Unicode的矛盾[23]。
事實上,由於在「中日韓統一表意文字」的不同區域裏,Unicode本身也使用了不一致的併分尺度,因此,早期的異體字時常獲分配正常碼位,後來常常只有相容區的暫存編碼,再後來則不時被直接整併並交由異體字選擇器處理。
若不修正或更改早期的編碼,類似的問題將會持續存在。
統漢字資料庫編輯
統漢字資料庫(英語:Unihan)是統一碼聯盟所維護的資料庫檔案。
其為統漢字的每個漢字做了說明,內容包含:
統一碼與各國家、地區標準及各工業標準的對應。
依據重要字典(如康熙字典)的排序索引。
經過編碼的異體字。
漢字在各種語言中的發音。
英文釋義。
其資料庫透過以下幾種方式發佈:
統一碼聯盟維護的網站版本[24]。
可供下載的txt文字檔案(頁面存檔備份,存於網際網路檔案館)。
基於上述檔案開發的第三方版本。
libUnihan項目開發了一套可供調用的c函式庫,和一個SQLite格式的Unihan資料庫[25]。
前者以LGPL協定發布,後者以MIT協定發布。
批評編輯
收字過少編輯
合併異體字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻卻要將字形不同之字同時並列。
已合併的各個字,在這些文獻裏變得各有各意思。
學者若使用Unicode,遇到這種情況,就要用不同電腦字型去顯示同一個字碼,甚至要自行造字,或捨Unicode而用其他編碼。
一來尋找、轉換電腦字型構成不便,二來有損Unicode記錄每一個字之用意,三來不能以純文字交換,四來電腦字型或因授權條款之限,難以交換流傳。
另外,這亦等於不能以Unicode準確記錄文獻,不利於文字的電腦化。
不同字形之字合併後,若檢索方法以字形爲本,會產生混亂,難以檢索。
例如筆畫檢字,艸部之「艹頭」,中國、日本算作三畫,而傳統中文爲四畫,留有「艸」形者則爲六畫。
Unicode同一字碼,源於字形不同,就有幾種筆畫,檢索混亂。
即使檢出字,筆畫與顯示出來的字形也不相符。
因此,批評者認爲,Unicode合併異體字並不可取。
收字過多編輯
參見:異體字字典
但是另一方面,Unicode收錄不少幽靈漢字,人們難以找到其出處,它們在實際生活上也極少機會使用,有些甚至是錯訛字,或者僅是某一個人的名字用字,那個人不見得是名人,甚至可能已去世,卻永久成爲標準裏的字元,佔用了一個碼位。
比如臺灣律師呂秋𧽚,他名字裏的「𧽚」字本應作「遠」,可是戶政人員誤聽他外公說的臺語,把「辵字邊」聽成「走馬邊」,外公又不敢更正。
當事人長大後,才確認這是錯字,「五千年來從來沒人這麼寫過」[26]。
但這字已永久收進Unicode中。
又如香港增補字符集裏的許多人名用字,都被學者指出乃屬訛寫,或者是來歷不明的自創新字,多部權威字書都沒有收錄,學者批評把這些字收進字庫後將會永久遺害[27]。
中文資訊界的李祥在其專欄批評當局「解決不了增補字集中上千錯字、白字、生造字的讀音問題」,呼籲「不要把香港增補字符集與申請ISO強迫聯繫在一起」[28]。
然而,這些人名訛字亦已經收進Unicode中。
這構成了收字過多的爭議。
也有批評認為Unicode收入大量錯訛字及寫法高度相似的同一字的不同字形本身就是不應該的。
電腦文字本身永遠不可能完全無失真地記錄文獻,且文獻本身也會因傳抄製版等原因略有不同,如果把每個字的各種寫法全部編碼,會浪費空間。
完全無失真地研究、記錄文獻只能通過檢視原本或照相影印版來完成,把無失真儲存轉嫁給編碼是錯誤的。
現時Unicode把一些異體字分別編碼,帶來了檢索困難。
只要寫法稍有不同,就無法檢出,令使使用者檢索字詞時,必須反覆檢索其不同寫法,造成重複勞動,對文獻研究反而是種妨礙。
例如Unicode中將「兒」和「𠒇」字安放在不同的碼位裏。
在檢索文獻時,檢索「兒」字時就找不到「雷莊𠒇」,檢索「𠒇」字時就找不到「雷莊兒」,反而造成困擾[29]。
準則矛盾編輯
對於同一部件,Unicode有分有合,原則不一致。
如「眞」和「真」、「塡」和「填」都分離編碼,但「縝」和「縝」就整併了;「直」和「直」、「植」和「植」皆整併作一碼,而「値」和「值」又分開來,既令人混淆,亦令人無所適從。
Unicode按原字集分離原則收字,只看各地區的既有編碼,不理會在文字學上同一部件的問題。
可是使用者實際上在電腦輸入文字時,看到的是具體的字形,而不是編碼碼位,這就會讓人感到矛盾和困惑。
而且在Unicode「中日韓統一表意文字」的不同區域裏,官方也使用了不一致的併分尺度。
早期的異體字時常獲分配正常碼位;後來常常只有相容區的暫存編碼,使相容區的字元在輸入和顯示時經常碰到問題;再後來則不時被直接整併並交由異體字選擇器處理。
於是Unicode在編碼上的矛盾就更突顯。
漢字〇編輯
「〇」是一個漢字,《集韻》中已有此字,則天文字中亦有此字。
《漢語大字典》《中華字海》《現代漢語詞典》都收錄了此字。
但在Unicode中它被放入CJK符號和標點區,被等同於數字0,在搜尋「〇」的時候,會連帶搜尋出數字0,使用上頗為不便(搜尋漢字「一、二、三」,不會搜尋出數字1、2、3)。
此外,很多程式限定了漢字的範圍為Unicode各漢字區,區外不視為漢字,由於「〇」不在漢字區中,導致這些程式無法處理「〇」這個漢字,造成不便。
已統一漢字編輯
原則上ISO10646只對字(Character),而非字形(Glyph)編碼。
同一字各地可使用自己的標準寫法。
以下使用HTML標示同一編碼的字在不同地區的寫法(但只是讀者的瀏覽器所提供的字型,未必代表該地區的標準寫法)。
例子Unicode
中文
日文
韓文
越文
中國大陸
臺灣
香港
U+623F
房
房
房
房
房
房
U+6C49
汉[註3]
U+6E2F
港
港
港
港
港
港
U+6F22
漢
漢
漢
漢
漢
漢
U+6FB3
澳
澳
澳
澳
澳
澳
U+76F4
直
直
直
直
直
直
U+7A97
窗
窗
窗
窗
窗
窗
U+89D2
角
角
角
角
角
角
U+8AA4
誤
誤
誤
誤
誤
誤
U+8BEF
误[註3]
U+8D77
起
起
起
起
起
起
U+9AA8
骨
骨
骨
骨
骨
骨
註:不是所有網頁瀏覽器均可分辨全部HTML的語言代碼(LanguageCode)並使用不同字形。
如非某一地區的使用者看到的字形和當地通用的字形一樣,表示該使用者的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。
未統一漢字編輯
主條目:未統一漢字列表
有些字只是同一字在不同地區的寫法,理應統一,但因為原字集分離原則而只好分開編碼。
由於KSX1001、Big5、IBM32、JISX0213、ARIBSTD-B24、KPS10721、CNS11643中有太多字形非常接近,按Unicode標準應該統一,但是從編碼上分離的字。
這些字只有正統的會編入正式字集(包括擴充區),不正統的編入「相容表意文字區」(CompatibilityIdeographs)和位於「第二輔助平面」的「相容表意文字補充區」(CompatibilityIdeographsSupplement)中。
範例:
Unicode
字
Unicode
字
Unicode
字
U+4E1F
丟
U+4E22
丢
U+514C
兌
U+5151
兑
U+518A
冊
U+518C
册
U+5433
吳
U+5434
吴
U+5449
呉
U+543F
吿
U+544A
告
U+5965
奥
U+5967
奧
U+5968
奨
U+596C
奬
U+734E
獎
U+5986
妆
U+599D
妝
U+59CD
姍
U+59D7
姗
U+5C13
尓
U+5C14
尔
U+5F54
彔
U+5F55
录
U+6236
戶
U+6237
户
U+6238
戸
U+63FA
揺
U+6416
搖
U+6447
摇
U+66A8
暨
U+66C1
曁
U+69D8
様
U+6A23
樣
U+6A2A
横
U+6A6B
橫
U+6B65
步
U+6B69
歩
U+7155
煕
U+7199
熙
U+7D55
絕
U+7D76
絶
U+7DA0
綠
U+7DD1
緑
U+9AEA
髪
U+9AEE
髮
U+9EAA
麪
U+9EAB
麫
U+9EBC
麼
U+9EBD
麽
U+9EC3
黃
U+9EC4
黄
U+9ED1
黑
U+9ED2
黒
自上表發表後,WG2亦調查過其他漢字[30],認為另一批屬於基本多文種平面的漢字,亦可考慮收編到ISO10646AnnexS3。
技術問題編輯
擴充B區的問題編輯
擴充B區使用了輔助平面來擺放漢字,以致不少文書處理軟體都不能支援。
例如,MicrosoftOffice2000或之前的版本,即使電腦擁有擴充B區漢字字體,也只會顯示兩個方格。
另外,因擴充B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[31]:
U+20457𠑗=U+34A8㒨
U+2420E𤈎=U+3DB7㶷
U+27144𧅄=U+8641虁
U+23515𣔕=U+204F2𠓲
U+249E9𤧩=U+249BC𤦼而在WG2N1155[30]檔案中,亦列出了152對可考慮統一的漢字。
錯誤統一的問題編輯
表意文字小組(IRG)處理文字時,遵循對字而不是對字形編碼的原則。
但是有的字被錯誤統一編在同一個編碼之中,如編碼為U+2827C的漢字。
2014年5月有人指出了這個問題[32]:
編碼
台灣源(TF-6127)
香港源(H-8BAE)
U+2827C
𨉼
𨉼
當惡和悪作為部件時是不應該統一的,因為惡和悪的繁簡性質不同。
相關的規定中也並未提及惡和悪作為部件應當統一,況且𫫖和噁是分開編碼的。
但是當表意文字小組(IRG)收到這個問題後,認為應當保持統一[33]。
因此這兩個字仍然在同一編碼之中。
注釋編輯
^這12個字放到相容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-、T-、J-、K-Source)中。
他們有獨立的形、音、義,即「獨一」(unique)[2]。
^舊版「細明體」指WindowsXP或以前版本之新細明體及細明體,其漢字寫法大體上遵從傳承字形。
^3.03.1某些碼位原來只有個別地區的字,但其他地區為相容國際標準,逐漸將所有碼位的字亦納入其國家標準。
參考文獻編輯
^RoadmaptotheTIP.統一碼聯盟.[2018-06-03].(原始內容存檔於2018-06-11).
^Unicode6.1,第410-411頁[1](頁面存檔備份,存於網際網路檔案館)
^[2]
^[3]
^[4]
^存档副本(PDF).[2020-03-24].(原始內容存檔(PDF)於2019-08-19).
^存档副本(PDF).[2020-03-24].(原始內容存檔(PDF)於2019-05-15).
^存档副本(PDF).[2020-03-24].(原始內容存檔(PDF)於2019-05-15).
^存档副本(PDF).[2020-03-24].(原始內容存檔(PDF)於2019-05-15).
^存档副本(PDF).[2020-03-24].(原始內容存檔(PDF)於2019-05-15).
^日本的「仝」本來被視為同上符號,編排於中日韓符號和標點區的U+3004Hanazonofonts.fonts.jp.[2010-04-19].(原始內容存檔於2010-04-12). ;但後來與正字區U+4EDD的字認同(統一)了,U+3004改為日本標準符號
^收入中日韓相容表意文字
^CJKCodes-CCCIIandANSIZ39.64-1989(EACC).www.ibiblio.org.[2010-04-18].(原始內容存檔於2008-05-16).
^存档副本(PDF).[2011-09-09].(原始內容存檔(PDF)於2012-05-09).
^存档副本(PDF).[2011-09-09].(原始內容存檔(PDF)於2011-09-16).
^IRGN1306:RequesttoWithdraw6545T-SourcefromCJKDcandidate(PDF).[2010-06-06].(原始內容存檔(PDF)於2011-07-21).
^IRGN1319A1_MoveToCJK_D.pdf.(原始內容(PDF)存檔於2018-01-15).
^存档副本(PDF).[2015年12月12日].(原始內容(PDF)存檔於2015年1月4日).
^存档副本(PDF).[2015-06-19].(原始內容存檔(PDF)於2015-06-25).
^存档副本(PDF).[2020-03-11].(原始內容存檔(PDF)於2020-03-24).
^存档副本.[2020-03-11].(原始內容存檔於2020-03-11).
^刻石錄:《Unicode摧殘正體字》(頁面存檔備份,存於網際網路檔案館)、刻石錄:《不知丹青,枉談漢字》(頁面存檔備份,存於網際網路檔案館)
^安岡孝一:《Unicodeの矛盾》.[2019-02-08].(原始內容存檔於2018-08-02).
^統漢字資料庫.統一碼聯盟.[2009-05-04].(原始內容存檔於2009-05-04).
^libUnihan主頁.libUnihan.[2009-05-04].(原始內容存檔於2012-03-21).
^呂秋遠:《呂秋「走袁」》(頁面存檔備份,存於網際網路檔案館),刊《立場新聞》。
^《政府通用字庫錯漏百出 收錄市民自創新字影響中文水平》,《太陽報》A6版,1999年10月13日
^李祥:《為了香港成為數碼城市……》.[2019-02-22].(原始內容存檔於2019-05-26).
^散彈一號:《「𠒇」字係咩嚟?——港姐冠軍帶出嘅哲學問題》(頁面存檔備份,存於網際網路檔案館),刊《輔仁媒體》。
^30.030.1IRGN1155PossibleDuplicates(.zip).[2019-06-22].
^存档副本(PDF).[2008-02-17].(原始內容存檔(PDF)於2007-06-12).
^存档副本(PDF).[2015-06-20].(原始內容(PDF)存檔於2015-06-20).
^ISO/IECJTC1/SC2/WG2/IRGN2013,第5条(PDF).[2015-06-20].(原始內容(PDF)存檔於2015-06-20).
外部連結編輯
統一碼裏中日韓表意文字和相關字元淺說(頁面存檔備份,存於網際網路檔案館)
CJK-CODE(頁面存檔備份,存於網際網路檔案館)
UTF-8andUnicodeFAQforUnix/Linux(頁面存檔備份,存於網際網路檔案館)
中華民國教育部異體字字典附錄-中日韓共享漢字表(頁面存檔備份,存於網際網路檔案館)
查「Unicode編碼」或「教育部異體字字典字號」(頁面存檔備份,存於網際網路檔案館)(CBETA中華電子佛典協會)Unicode(統一碼)漢字統合歷史(頁面存檔備份,存於網際網路檔案館)
統漢字搜尋工具(頁面存檔備份,存於網際網路檔案館)
表意文字變體資料庫(頁面存檔備份,存於網際網路檔案館)
UnicodeRoadmaptotheTIP(頁面存檔備份,存於網際網路檔案館)
中日韓統一表意文字(頁面存檔備份,存於網際網路檔案館)(PDF,34.0MB)
中日韓相容漢字(頁面存檔備份,存於網際網路檔案館)(PDF,762kB)
中日韓相容漢字補充(頁面存檔備份,存於網際網路檔案館)(PDF,601kB)
擴充A區漢字(頁面存檔備份,存於網際網路檔案館)(PDF,6.58MB)
擴充B區漢字(頁面存檔備份,存於網際網路檔案館)(PDF,38.7MB)
擴充C區漢字(頁面存檔備份,存於網際網路檔案館)(PDF,3.16MB)
擴充D區漢字(頁面存檔備份,存於網際網路檔案館)(PDF,215kB)
擴充E區漢字(頁面存檔備份,存於網際網路檔案館)(PDF,3.44MB)
擴充F區漢字(頁面存檔備份,存於網際網路檔案館)(PDF,4.33MB)
擴充G區漢字(頁面存檔備份,存於網際網路檔案館)(PDF,2.13MB)ISO表意文字工作組ISO表意文字工作組網站(頁面存檔備份,存於網際網路檔案館)
ISO/IEC10646AnnexS漢字統一及編排步驟(頁面存檔備份,存於網際網路檔案館)
擴充C區編碼網站(頁面存檔備份,存於網際網路檔案館)
急用漢字(UNC)多欄列表參見編輯
漢字文化圈主題
資訊科技主題
表意文字、語素文字、漢字、漢字文化圈
輔助平面
字形
ISO10646-Unicode-國際表意文字核心(IICore)
異體字(Unicode)
Wikipedia:Unicode擴充漢字
取自「https://zh.wikipedia.org/w/index.php?title=中日韓統一表意文字&oldid=70474989」
延伸文章資訊
- 1在字串比較中使用萬用字元
除了以括弧括住的簡單字元清單,charlist 可以使用連字號(-) 來分隔範圍的上限和下限,以指定字元範圍。 例如,如果運算式中的對應字元位置包含範圍A 到Z 內的任何大寫字母 ...
- 2中日韓相容字元- 维基百科,自由的百科全书
中日韓相容字元是一個位於基本多文種平面的Unicode區塊,收錄了方塊符號(包括中日韓和拉丁字母數字),用於兼容東亞各字符集。本區塊在1.0版本中並不存在,其分為兩個 ...
- 3中鋼人工智慧挑戰賽-字元辨識 - T-Brain
已有具體事證,所屬隊伍違反本比賽活動辦法、或「T-Brain AI實戰吧平台服務」 使用條款、或「中鋼人工智慧挑戰賽-字元辨識」 參賽者使用條款。 主辦單位 ...
- 4中的字源字形
中”的字源字形,甲骨文金文楚系簡帛秦系簡牘說文小篆傳抄古文字. ... 簡帛是竹簡與帛書的統稱,亦作竹帛,古書中所言「書於竹帛」,是在古代中國人書寫所用的主要 ...
- 5萬用字元範例
若要在不記得特定專案的拼字正確時找出該專案,請嘗試在查詢中使用萬用字元。 萬用字元是一種特殊字元,可代表文字值中的未知字元,很適合尋找具有類似但並非相同資料 ...