字符集:Big5與Unicode的差異 - iFontCloud 文鼎雲字庫
文章推薦指數: 80 %
字符集:Big5與Unicode的差異. 2021-07-20 09:51:32.0. 分類: Font Technology Big5 Unicode 3.0 缺字 字符集. 我們在輸入文字的時候,有時候是不是會 ... 文鼎粗黑. 8.
NewKnowledge
Terms
/
FeaturedFonts
/
DesignandDevelopment
/
FontTechnology
/
ProductsandApplications
字符集:Big5與Unicode的差異
2021-07-2009:51:32.0
分類:FontTechnology
Big5
Unicode3.0
缺字
字符集
我們在輸入文字的時候,有時候是不是會遇到字元無法顯示的缺字情形呢?缺字有可能是許多情況造成的,但最常見的情況是缺的這個字,沒有收錄在Big-5字符集裡,這時候,使用支援Unicode2.0或3.0字符集的字型,大多可以解決缺字的情況。
什麼是Big-5
Big-5又稱為大五碼,是最常使用的繁體中文字符集,共收錄13,060個漢字,及441個全角符號。
Big-5普遍使用於台灣、香港與澳門等地區,唯它並非當地的國家標準,只是業界標準,最新版本是Big5-2003。
什麼是Unicode
Unicode是全球通用的字元編碼,收錄了世界上所有國家及地區的文字及符號,在1991年首次發佈了TheUnicodeStandard,目前最新的版本為Unicode13。
而繁體中文普遍使用的Unicode3.0共收錄27,484個漢字,而2005年發佈的Unicode4.1已收錄超過10萬字。
Big-5與Unicode的差異
很多人常常會把兩者相互比較,而到底兩個的差異在哪呢,簡單來說,我們可以用支援字數多、寡來做區隔,用一個比較簡單的方式來比喻,把Unicode想像成裝雞蛋的大籃子,Big-5則是大籃子中的小籃子,而這些字碼則是籃中的雞蛋。
前面我們提到,Big5-包含有13,060個漢字,其包含在Unicode的大籃子中,因此,可以解釋成Big-5是Unicode的其中一部分。
所以在一般Windows作業系統中常會有打不出來的字,或是出現亂碼,很大的原因是因為Big-5的範圍內沒有支援到Unicode的字,已經做超出小籃子的負荷了。
如果出現這樣的情況,通常選擇使用援Unicode2.0或3.0字符集的中文字型,大多可以解決缺字的情況。
要如何選擇、使用文鼎公司繁體中文有支援Unicode字符集產品呢?最簡易的方式就是在iFontCloud網站字型頁面上輸入「U30」這個關鍵字,就可以看到有支援Unicode3.0這種大字符集的字型產品,目前共有25個字型檔案可以選擇使用。
在產品上,Big-5與Unicode這兩個字符集的產品要如何分別呢?以文鼎UD晶熙黑體為例,在字型名稱上若有看到U30,即表示這個字型產品是支援Unicode3.0字符集的產品,若沒有看到標示,則為Big-5字符集的產品,如文鼎UD晶熙黑體U30與文鼎UD晶熙黑體U30。
FontTechnology
GB18030中文編碼字符集
GB18030是中國大陸規範的的漢字編碼字符集標準,GB18030-2005共收錄漢字70,244個。
目前GB18030有GB18030-2000及GB18030-2005兩個版本,2000年發佈的GB18030-2000,全名是《信息技術漢字編碼字符集基本集的擴充》。
GB18030-2000僅規定了常用非漢字符號和27,533個漢字(包括部首、部件等)的編碼,GB18030-2000是一個強制性的標準,市場上銷售的產品用字必須符合其規範。
而2005年發佈的GB18030-2005在GB18030-2000的基礎上增加了42,711個漢字和多種中國少數民族文字的編碼,增加的這些內容是推薦性質,無強制規範。
簡要來說,目前若提到GB18030規格的產品,其對應的標準為GB18030-2005,其中27,533個漢字為基本必要的強制規範範圍。
什麼時候需要使用到GB18030字集的字體/GB18030字集的使用範圍
由於GB18030字集的字元數多達兩萬多字,一般來說,在簡體中文的使用情境,基本的GB2312規格已經足夠使用,但在需要顯示中文姓氏、人名、地名等情況時,由於中文漢字的特性,在上述情況可會出現罕用字的使用,這時候就需要使用GB18030字集的字體來做排版,避免出現缺漏字的情況。
2005年11月發佈的GB18030-2005版本中文編碼字符集,已要求各種電腦作業系統、字型產品、輸入法、應用軟體、及內建嵌入式系統的3C電子、通信設備,如SmartPhone、Tablet、印表機等周邊設備,要支援GB18030字集。
中國大陸編碼標準的演進
1980年頒佈了第一個漢字編碼字元集標準,為GB2312-80《資訊交換用漢字編碼字符集基本集》。
此標準總共定義8,836個碼位,收納了6,763個漢字及682個常用符號,總共有7,445個字元。
此規格在早期幾乎是唯一的標準,即使到目前為止,在中國大陸也是電腦系統、軟體及各種設備使用最廣泛的中文編碼標準。
1995年中國全國信息技術標準化技術委員會公佈了【漢字內碼擴展規範(GBK)】,GBK(K是"擴展"的漢語拼音第一個字母),總共定義23,940個碼位,收錄了21,003個漢字與884個符號共21,887個字元。
2000年國際標準組織ISO又公佈了ISO10646-1:2000(Unicode3.0),主要是增加中日韓統一漢字ExtensionA的6,582個字元。
大陸的GBK規格已無法容納新增的字元,因此GB18030-2000編碼標準就在原來的GB2312-1980編碼標準和GBK編碼標準的基礎上進行擴充。
字型產品與GB18030的關係
中國政府對中文字型,尤其是簡體中文字型,訂定有國家檢測認證的標準,尤其是最常使用的4種造型字型:宋、仿、楷、黑,要求使用字型於產品顯示的3C通信、資訊、電子等廠商,必須使用政府認證的字型。
一般常用的點陣字型(BitmapFont),如12x12、16x16、32x32、…等等,都有強制性標準。
也就是說要向大陸官方購買取得公司使用授權,再將字型載入嵌入式系統產品上,如手機,電子字典、印表機等,這些產品才能銷售到大陸。
大陸對於向量字型的規範,採取審查核准使用的方式,簡體中文字體的認證,由中國政府的信標委及CESI(中國電子技術標準化研究所)負責,中國政府為避免各家字型公司,所開發的簡體字型品質不一,由中國官方特別指定的認證單位,訂定規範、製作、授權標準,針對在大陸地區使用之簡體字型之完整性、正確性、規範性、風格一致性、結構合理性等進行審核。
因此,在中國所有使用於3C通信、資訊、電子等產品上之簡體中文字型,都必需是取得CESI認證的字型。
因此對於採用TTF等向量字型的裝置設備,例如智慧手機、平板電腦、DTV/STB…等,就可以使用向量字型來取代需官方授權的點陣字型。
目前為止,文鼎已有11套字型取得CESI認證規範,分別是五套GB18030字集,六套GB2312字集,字型清單如下:
項次
字集
文鼎中文字型
1
GB18030
文鼎報宋二
2
文鼎中楷
3
文鼎晶栩楷體
4
文鼎晶栩黑體
5
文鼎UD晶熙黑體
6
GB2312
文鼎UD晶熙黑體
7
文鼎粗黑
8
文鼎書林黑_L
9
文鼎書林黑_M
10
文鼎Mobile中黑
11
文鼎书苑黑体B
總結
在中國市場銷售3C電子、通信產品的國內外廠商,都已了解要進入中國市場,無論是軟體產品或硬體產品,必須採用中國政府標準規範的GB18030中文編碼字符集,及使用中國政府認證的中文字型產品才能順利做銷售。
文鼎字型可以提供CESI認證的GB18030字型,授權給3C電子、通信廠商,做產品設計、製造及銷售,將字型內嵌於產品中,廠商不但不用擔心符合規範的問題,又可以取得功能上與成本上無可取代的優勢。
GB18030
字集
FontTechnology
unitsperem
字體設計的工程規格中,有個較少被人提及的專有名詞「UPM」,UPM全名為unitsperem。
Em為字體設計上的一個單位,傳統上,em指的是活字印刷鉛字字身的高度;在現今數位字體設計上,EM化身一個虛擬的數位畫布,依字體設計的精細度需要,畫分出一個座標系統網格,這個座標系統大小的設定值最常見的是1000或2048,這個設定值,就稱為unitsperem,它決定了字體座標網格的粒度大小。
關於UPM數值的設定,基於TrueType和OpenTypeTT的字體,UPM的設定值通常為2048,而OpenTypePS字體UPM的設定值通常為1000,但是也有設為256或512的情況發生,這樣主要是為了達到降低字體檔案的資料量或在特殊情境所需要的設定。
這些UPM設定值的大小除了與字體應用情境搭配外,在字體品質會有差異嗎?
我們以下方的圖例做說明,我們若將這三個圖形視為「點」來看,右方的點是基於UPM256的設計,而左方的點是以UPM2048作設計,我們可以看出兩者都有達到一般所認知「點」的概念,但若前提是「圓點」、「正圓」,那麼就一定是左方UPM2048所設計的圖形才能符合標準。
也就是說,UPM值設定的越高,可以獲得更多包含曲線、造型等的設計細節,反過來說,若我們想要設計一款具備高品質、有細膩曲線描繪的字體產品,在UPM就會需要相對較高的設定值。
以中文字體產品來說,無論是TrueType或OpenTypePS的字體,目前大多數的UPM設定都以1000為主,這是一個在產品品質與檔案量大小可以取得平衡的設定。
字體設計
EM
UPM
FontTechnology
微字型
文鼎公司關注到字型產品除了設計上創意的專注外,也考量到應用面用字的需求,如小字號文字閱讀的清晰度、辨識度。
一款字型產品是如何的被決策出來做量產的,首先要評估的是產品會被用在哪裡?決定了使用目的,依情境定義使用字號(fontsize),有了這些後,才會有後續的設計規格的延伸。
回到設計師的字體應用情境,在執行設計案件時,字型對於設計師來說是眾多設計素材之一,但在資訊訊息呈現,字型一定是一個重要的選擇。
文鼎公司關注到字型產品除了設計上創意的專注外,也考量到應用面用字的需求,我們看到了字型在設計上被使用在小字號的需要,也看到了閱讀上,小字號文字清晰度、辨識度上的重要性,因此在字體設計與造字工程上進行整合,開發出一系列專屬使用在小字號情境的微字型產品。
在鉛字印刷時代,每個字號鉛字有著固定的物理大小,我們以築地明潮體舉例,可以看到上方的那排是築地明朝初號到六號放大到一致大小的情況,下方是文鼎上海宋實際使用大小的示意圖,透過觀察,用於內文小字的六號字(8pt)與標題大字的二號字(21pt)兩者在筆畫細節處有著設計的差異,以筆尾末端的設計為例,因為二號字呈現的字號較小,因此需要稍微加重筆尾的厚度,使其在顯示時不至於虛掉、灰掉,而用於大字的二號字,是要清楚呈現明體的特徵,因此做較細緻的設計。
這是早期鉛字在設計上考量實務用字大小所做的設計因應,但數位字體使用的媒介與情境與以往有很大的不同,特別是向量字可以任意縮放大小的特性,這絕對不是鉛字可以比擬的;然而若是使用在如六號字(8pt)的大小,字體是否還可以清晰地呈現呢?
以文鼎UD晶熙黑體為例,雖然晶熙黑在設計之初,已經考量印刷、螢幕顯示的使用,但因漢字筆畫多、寡的對比情況在極小字的使用情境下,仍然會有糊字影響到視覺效果,以下圖左右兩邊的對照來看,右方的微字型與左邊標準版的晶熙黑體,在閱讀視覺上所形成的跳躍,已經明顯的降低。
微字型產品是如何達到這樣的效果呢?關鍵是設計師將漢字由筆畫多寡由少至多作排序,透過設計師與工程師的合作,筆畫少的字元,不改變筆畫的粗細,筆畫多的字元,依視覺灰度做筆畫粗細漸進的調整,來達到小字顯示時降低糊字的情形,因此,微字型的產品特別適用在3-8P的環境,相對的,若是標題以上的大字號顯示,則建議選用標準版的產品。
下圖是由美可特品牌企劃設計應用文鼎UD晶熙黑體微字型所設計的面膜包裝,我們將重點放在背後的用字上,回到字型選擇應用面的考量,透過畫面,我們可以感受到這些字的使用size是很小的,如何在小字保有清晰的顯示,是這個案件選用微字型產品的要點。
目前已經開發完成的微字型產品,造型為經典的黑體與圓體,語言包含繁體中文、簡體中文,其中文鼎UD晶熙黑體微字型產品支援Unicode3.0及GB18030大字集的規格,降低設計師在排版缺字的機率,提升使用感受。
繁體中文晶熙黑體微字型也將長體字型納入,排版上有利於有空間限制的版面容納較多的文字資訊。
微字型產品的推出獲得了設計師的肯定,未來也會持續開發將新的微字型產品,想要了解詳細文鼎微字型產品的支援情況,歡迎前往文鼎iFontCloud瀏覽。
點我前往>文鼎iFontCloud_微字型
微字型
字體設計
字身
字身框
字面
字面框
字元間距
字距
字體粗細
字重
字寬
定距字
調和字
漢字調和設計
字腔
中宮
字級
fontsize
拉丁規格
拉丁設計
設計規格
行距
筆畫
筆劃
筆畫造型
筆形
英文
字體名稱
TTF
TrueType
TTC
P
OTF
OpenType
OpenType1.8
VF
Variablefont
Micro
微字型
極小字
E
E1
Std
Pro
B5
Big5
繁體中文
香港外字
HK
HKSCS
日文
JP
0208
G30
GB18030
簡體中文
U30
Unicode3.0
Display
標題字
Text
內文字
方新書
長體
明體
宋體
人文
行楷
書法
疊字
魏碑
可愛
活潑
香蕉人
陳森田
手寫
fontformat
包裝設計
可變
動畫
大字集
橫幅
正文
iPadOS
iOS
customfont
UDFont
黑體
晶熙黑
WebFont
字出不來
中英搭配
Win10
輸入法
租賃
授權
書苑宋
加粗
國字零
國字〇
〇
難字
外字
可變式字型
視覺調整
PDF
授權移轉
移轉授權
罕用字
生僻字
試用
缺字
字符集
教育
造字
買字
字型下載
字型APP
風味輪
字體分類
實體卡
啟用
字集
AI造字
花栗體
直射光
反射光
用字
企業用字
手寫字體
合作開發
Big5_AR2021
字型名稱
名稱對應
EM
UPM
Bold
condensed
長體
延伸文章資訊
- 1編碼Big5轉為UTF8 - 政府資料開放平臺
編碼Big5轉為UTF8 · 一、先將檔案已記事本開啟. 將ods檔案以記事本開啟檔案 · 二、開啟後,點選檔案-另存新檔. 用記事本另存新檔 · 三、於儲存按鈕的左方,選擇UTF-8編碼,再 ...
- 2字符集:Big5與Unicode的差異 - iFontCloud 文鼎雲字庫
字符集:Big5與Unicode的差異. 2021-07-20 09:51:32.0. 分類: Font Technology Big5 Unicode 3.0 缺字 字符集. 我們在輸入文字的...
- 3Re: [問題] 請教Big5 和UTF-8 的編碼差異... - 精華區Web_Design
採用變動大小,中文字使用3 bytes,英文則維持1 byte 因此若轉碼後,資料庫整體會變成1.5 倍大,200MB(Big5) -> 300MB(UTF-8) 2.
- 4[java]關於編碼big5及Unicode utf-8 | 菜程式- 點部落
說到平常使用上的編碼之類的問題. 一定要提一下批踢踢的一篇精華區文章. 是在討論編碼big5和utf-8. 如果不知道big5是做什麼的可以參考一下「維基百科 ...
- 5utf-8 big5編碼問題 - iT 邦幫忙
語言為java 開發工具為Eclipse 我的檔案編碼是utf-8-bom 專案環境是ms950 寫進去db要big5. 是否有些文字會變成問號沒辦法寫進去db(像"堃").