[轉貼] 各種語系的unicode對應以及local編碼方式 - 聽打逐字稿
文章推薦指數: 80 %
日文. Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼) 備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理 locale編碼: Shift-JIS, EUC-JP 親子日記APP| 免費申請| 登入 [轉貼]各種語系的unicode對應以及local編碼方式2019082910:18 [出處] http://www.programmer-club.com.tw/ShowSameTitleN/general/4309.html 一.英文 Unicode範圍:0041-005A,0061-007A(若含數字與符號,則為0021-007E) locale編碼:ANSI 1.ANSI HTMLcharset:us-ascii RTFcharset:0 編碼方式:41-5A,61-7A(若含數字與符號,則為21-7E) 二.中文 Unicode範圍:2E80-2FDF,3400-4DBF,4E00-9FFF 備註:F900-FAFF的相容型中文字碼,應轉至一般的中文字碼處理,31A0-31BF則為注音符號表 locale編碼:繁體中文有BIG5,CNS,簡體中文為GB 1.BIG5 HTMLcharset:big5 RTFcharset:136 編碼方式:雙byte語系,byte1範圍為A1-FE,byte2範圍為40-7E,A1-FE 備註:big5+目前幾乎無人使用,故省略不提 2.CNS HTMLcharset:無(應為euc-tw或iso-2022-cn,但IE並不支援) RTFcharset:無 編碼方式:多byte語系 byte1範圍為A1-FE時為2byte編碼,byte2範圍為A1-FE byte1為8E時,為4byte編碼,byte2範圍為A1-B0,byte3與byte4範圍均為A1-FE 備註:4byte編碼時,byte2為A1與2byte編碼之字碼相同(即第1字面),CNS目前只使用了7個字面,因此byte2實際使用範圍為A1-A7,早期第15字面有放了一些字碼,後來都已編入前7個字面內了 3.GB HTMLcharset:gb2312,gbk,euc-cn RTFcharset:134 編碼方式:雙byte語系,byte1範圍為81-FE,byte2範圍為40-7E,80-FE 三.日文 Unicode範圍:3040-30FF,31F0-31FF(混用中文字碼) 備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理 locale編碼:Shift-JIS,EUC-JP 1.Shift-JIS HTMLcharset:shift_jis,x-sjis,iso-2022-jp RTFcharset:128 編碼方式:單/雙byte語系 byte1範圍為A1-DF時為1byte編碼 byte1範圍為81-9F,E0-EF時為2byte編碼,byte2範圍為40-7E,80-FC 2.EUC-JP HTMLcharset:euc-jp,x-euc-jp RTFcharset:無 編碼方式:多byte語系 byte1為8E時,為2byte編碼,byte2範圍為A1-DF byte1範圍為A1-FE時,為2byte編碼,byte2範圍為A1-FE byte1為8F時為3byte編碼,byte2與byte3範圍均為A1-FE 備註:IE不支援3byte編碼部份 四.韓文 Unicode範圍:1100-11FF,3130-318F,AC00-D7AF(混用中文字碼) 備註:FF00-FFEF有半形韓文,應轉至一般韓文字碼處理 locale編碼:Johab,EUC-KR 1.Johab HTMLcharset:johab RTFcharset:130 編碼方式:雙byte語系 byte1範圍為84-D3時,byte2範圍為41-7E,81-FE byte1範圍為D8-DE,E0-FE時,byte2範圍為31-7E,91-FE 2.EUC-KR HTMLcharset:euc-kr,iso-2022-kr RTFcharset:129 編碼方式:雙byte語系,byte1範圍為A1-FE,byte2範圍為A1-FE 五.阿拉伯文 Unicode範圍:0600-06FF,0750-077F locale編碼:Windows 1.Windows HTMLcharset:windows-1256 RTFcharset:178 編碼方式:1byte語系 六.泰文 Unicode範圍:0E00-0E7F locale編碼:Windows 1.Windows HTMLcharset:windows-874 RTFcharset:222 編碼方式:1byte語系 七.俄文 Unicode範圍:0400-052F(西里爾文) locale編碼:Windows,ISO,KOI8-U,KOI8-R 1.Windows HTMLcharset:windows-1251 RTFcharset:204 編碼方式:1byte語系 2.ISO HTMLcharset:iso-8859-5 RTFcharset:無 編碼方式:1byte語系 3.KOI8-U HTMLcharset:koi8-u RTFcharset:無 編碼方式:1byte語系 4.KOI8-R HTMLcharset:koi8-r RTFcharset:無 編碼方式:1byte語系 八.德文/法文 Unicode範圍:00C0-00FF(混用英文字母) 備註:字母上面有2點者為德文,字母上面有重音符號者為法文 locale編碼:ANSI 1.ANSI HTMLcharset:iso-8859-1,windows-1252 RTFcharset:0 編碼方式:1byte語系 九.印尼文/馬來西亞文 Unicode範圍:同英文,為拼音語系 locale編碼:同英文 十.中歐語系 Unicode範圍(拉丁語文):00C0-02AF,1E00-1EFF(混用英文) locale編碼:Windows,ISO 1.Windows HTMLcharset:windows-1250 RTFcharset:238 編碼方式:1byte語系 2.ISO HTMLcharset:iso-8859-2 RTFcharset:無 編碼方式:1byte語系 十一.希臘文 Unicode範圍:0370-03FF,1F00-1FFF,2C80-2CFF locale編碼:Windows 1.Windows HTMLcharset:windows-1253,iso8859-7(後者IE不支援) RTFcharset:161 編碼方式:1byte語系 十二.希伯來文 Unicode範圍:0590-05FF locale編碼:Windows 1.Windows HTMLcharset:windows-1255,iso8859-8(後者IE不支援) RTFcharset:177 編碼方式:1byte語系 十三.土耳其文 Unicode範圍:同拉丁語文(混用英文) locale編碼:Windows 1.Windows HTMLcharset:windows-1254,iso8859-9(後者IE不支援) RTFcharset:162 編碼方式:1byte語系 ***Unicode語系字碼分佈表 英文0041-005A,0061-007A 中文2E80-2FDF,3100-312F,3400-4DBF,4E00-9FFF,F900-FAFF 日文3040-30FF,31F0-31FF 韓文1100-11FF,3130-318F,AC00-D7AF 泰文0E00-0E7F 寮文0E80-0EFF 藏文0F00-0FFF 彝文A000-A4CF 蒙古文1800-18AF 緬甸文1000-109F 高棉文1780-17FF 拉丁文(Latin)00C0-02AF,1E00-1EFF 希臘文(Greek)0370-03FF,1F00-1FFF,2C80-2CFF 希伯來文(Hebrew)0590-05FF 阿拉伯文(Arabic)0600-06FF,0750-077F 敘利亞文(Syriac)0700-074F 西里爾文(Cyrillic),0400-052F 亞美尼亞文(Armenian)0530-058F 孟加拉文(Bengali)0980-09FF 僧伽羅文(Sinhala,斯里蘭卡文)0D80-0DFF 喬治亞文(Georgian,英國古文)10A0-10FF,2D00-2D2F 歐甘文(Ogham,愛爾蘭文)1680-169F 如尼文(Runic,北歐古文)16A0-16FF 塔納文(Thaana,一種印度文)0780-07BF 比哈文(SylotiNagri,一種印度文)A800-A82F 林布文(Limbu,一種印度文)1900-194F 布吉文(Buginese,一種印度文)1A00-1A1F 奧里雅文(Oriya,一種印度文)0B00-0B7F 泰米爾文(Tamil,一種印度文)0B80-0BFF 泰盧固文(Telugu,一種印度文)0C00-0C7F 卡納達文(Kannada,一種印度文)0C80-0CFF 天城體梵文(Devanagari,一種印度文)0900-097F 古爾穆基文(Gurmukhi,一種印度文)0A00-0A7F 古吉拉特文(Gujarati,一種印度文)0A80-0AFF 馬拉雅拉姆文(Malayalam,一種印度文)0D00-0D7F 他加祿文(Tagalog,一種菲律賓文)1700-171F 漢奴勞文(Hanunoo,一種菲律賓文)1720-173F Buhid(一種菲律賓文)1740-175F Tagbanwa(一種菲律賓文)1760-177F 徹羅基文(Cherokee,美國印弟安文)13A0-13FF TaiLe(中緬邊境民族文)1950-197F 新傣文(中國少數民族文)1980-19DF 格拉哥里文(Glagolitic,一種斯拉夫文)2C00-2C5F 衣索比亞文(Ethiopic)1200-139F,2D80-2DDF 提非納文(Tifinagh,一種衣索匹亞文)2D30-2D7F 0000-007FC0ControlandBasicLatin,標準ANSI字元 0080-00FFC1ControlandLatin-1Supplement,控制碼與拉丁文 0100-024FLatinExtended,拉丁文 0250-02AFIPAExtensions,拉丁文 02B0-02FFSpacingModifierLetters,符號 0300-036FCombiningDiacriticalMarks,組合記號 0370-03FFGreekandCoptic,希臘文與科普特文 0400-052FCyrillic,西里爾文 0530-058FArmenian,亞美尼亞文 0590-05FFHebrew,希伯來文 0600-06FFArabic,阿拉伯文 0700-074FSyriac,敘利亞文 0750-077FArabicSupplement,阿拉伯文 0780-07BFThaana,塔納文(一種印度文) 07C0-07FF保留 0900-097FDevanagari,天城體梵文(一種印度文) 0980-09FFBengali,孟加拉文 0A00-0A7FGurmukhi,古爾穆基文(一種印度文) 0A80-0AFFGujarati,古吉拉特文(一種印度文) 0B00-0B7FOriya,奧里雅文(一種印度文) 0B80-0BFFTamil,泰米爾文(一種印度文) 0C00-0C7FTelugu,泰盧固文(一種印度文) 0C80-0CFFKannada,卡納達文(一種印度文) 0D00-0D7FMalayalam,馬拉雅拉姆文(一種印度文) 0D80-0DFFSinhala,僧伽羅文(斯里蘭卡文) 0E00-0E7FThai,泰文 0E80-0EFFLao,寮文 0F00-0FFFTibetan,藏文 1000-109FMyanmar,緬甸文 10A0-10FFGeorgian,喬治亞文(英國古文) 1100-11FFHangulJamo,韓文 1200-139FEthiopic,衣索比亞文 13A0-13FFCherokee,徹羅基文(美國印弟安文) 1400-167FUnifiedCanadianAboriginalSyllabics,加拿大土語音節符號 1680-169FOgham,歐甘文(愛爾蘭文) 16A0-16FFRunic,如尼文(北歐古文) 1700-171FTagalog,他加祿文(一種菲律賓文) 1720-173FHanunoo,漢奴勞文(一種菲律賓文) 1740-175FBuhid,(一種菲律賓文) 1760-177FTagbanwa,(一種菲律賓文) 1780-17FFKhmer,高棉文 1800-18AFMongolian,蒙古文 18B0-18FF保留 1900-194FLimbu,林布文(一種印度文) 1950-197FTaiLe,(中緬邊境民族文) 1980-19DFNewTaiLue,新傣文(中國少數民族文) 19E0-19FFKhmerSymbols,高棉文符號 1A00-1A1FBuginese,布吉文(一種印度文) 1A20-1CFF保留 1D00-1DBFPhoneticExtensions,音標符號 1DC0-1DFFCombiningDiacriticalMarksSupplement,組合記號 1E00-1EFFLatinExtendedAdditional,拉丁文 1F00-1FFFGreekExtended,希臘文 2000-206FGeneralPunctuation,標點符號 2070-209FSuperscriptsandSubscripts,上下標符號 20A0-20CFCurrencySymbols,貨幣符號 20D0-20FFCombiningDiacriticalMarksforSymbols,符號用組合記號 2100-214FLetterlikeSymbols,似字母符號 2150-218FNumberForms,數字符號 2190-21FFArrows,箭頭符號 2200-22FFMathematicalOperators,數學運算符號 2300-23FFMiscellaneousTechnical,特殊符號 2400-243FControlPictures,控制記號 2440-245FOpticalCharacterRecognition,光學字元識別符號 2460-24FFEnclosedAlphanumerics,括號字母數字符號 2500-257FBoxDrawing,表格符號 2580-259FBlockElements,區塊符號 25A0-25FFGeometricShapes,幾何圖形符號 2600-26FFMiscellaneousSymbols,其他符號 2700-27BFDingbats,前導符號 27C0-27EFMiscellaneousMathematicalSymbols-A,數學符號 27F0-27FFSupplementalArrows-A,箭頭符號 2800-28FFBraillePatterns,盲文(點字符號) 2900-297FSupplementalArrows-B,箭頭符號 2980-29FFMiscellaneousMathematicalSymbols-B,數學符號 2A00-2AFFSupplementalMathematicalOperators,數學運算符號 2B00-2BFFMiscellaneousSymbolsandArrows,箭頭符號 2C00-2C5FGlagolitic,格拉哥里文(一種斯拉夫文) 2C80-2CFFCoptic,科普特文(一種埃及文) 2D00-2D2FGeorgianSupplement,喬治亞文(英國古文) 2D30-2D7FTifinagh,提非納文(一種衣索匹亞文) 2D80-2DDFEthiopicExtended,衣索匹亞文 2DE0-2DFF保留 2E00-2E7FSupplementalPunctuation,標點符號 2E80-2EFFCJKRadicalsSupplement,中文部首 2F00-2FDFKangxiRadicals,中文部首 2FF0-2FFFIdeographicDescriptionCharacters,漢字結構描述符號 3000-303FCJKSymbolsandPunctuation,中日韓符號 3040-309FHiragana,日文平假名 30A0-30FFKatakana,日文片假名 3100-312FBopomofo,中文注音符號 3130-318FHangulCompatibilityJamo,韓文 3190-319FKanbun,中文上下標 31A0-31BFBopomofoExtended,中文注音符號 31C0-31EFCJKStrokes,中文筆劃符號 31F0-31FFKatakanaPhoneticExtensions,日文片假名 3200-33FFEnclosedCJKLettersandMonths,中日韓組合符號字 3400-4DBFCJKUnifiedIdeographsExtensionA,中文 4DC0-4DFFYijingHexagramSymbols,易經符號 4E00-9FFFCJKUnifiedIdeographs,中文 A000-A4CFYi,彝文 A4D0-A6FF保留 A700-A71FModifierToneLetters,音標符號 A720-A7FF保留 A800-A82FSylotiNagri,比哈文(一種印度文) A830-A8FF保留 AC00-D7AFHangulSyllables,韓文 D780-D7FF保留 D800-DFFFSurrogates,UTF-16相容保留區 E000-F8FFPrivateUseArea,自造字專用區 F900-FAFFCJKCompatibilityIdeographs,中文 FB00-FB4FAlphabeticPresentationForms,字母變體顯現形式 FB50-FDFFArabicPresentationForms-A,阿拉伯文變體顯現形式 FE00-FE0FVariationSelectors,字型變換選取器符號 FE10-FE1FVerticalForms,中文直排符號 FE20-FE2FCombiningHalfMarks,組合記號 FE30-FE4FCJKCompatibilityForms,中文直排符號 FE50-FE6FSmallFormVariants,標點符號 FE70-FEFFArabicPresentationForms-B,阿拉伯文變體顯現形式 FF00-FFEFHalfwidthandFullwidthForms,半形及全形字符 FFF0-FFFFSpecials,特殊保留區 ***codepage編號一覽表 37:US-Canada(IBMEBCDIC) 367:西歐語系/英文(ibm) 437:英文OEM/西歐語系-Euro(dos) 500:波羅的海文(dos) 708:阿拉伯文ASMO708 720:阿拉伯文dos 737:希臘文windows(dos) 775:波羅的海文(dos) 819:西歐語系(ibm) 850:西歐語系(dos) 852:中歐語系dos 855:斯拉夫語系 857:土耳其文(dos) 858:西歐語系+Euro(dos) 860:葡萄牙文(dos) 861:冰島文(dos) 862:希伯來文dos 863:French/Canada(dos) 864:阿拉伯文dos 865:日耳曼語系/挪威文(dos) 866:俄文dos 869:希臘文(modern)(dos) 870:MultilingualLatin-2(IBMEBCDIC) 874:泰文(dos/windows) 875:希臘文(modern)(IBMEBCDIC) 932:日文shift-jis 936:簡體中文gb 949:韓文euc-kr 950:繁體中文big5 1026:土耳其文+Latin5(IBMEBCDIC) 1140:US-Canada(Euro)(IBMEBCDIC) 1141:德文(Euro)(IBMEBCDIC) 1142:丹麥/挪威(Euro)(IBMEBCDIC) 1143:芬蘭/瑞典(Euro)(IBMEBCDIC) 1144:義大利文(Euro)(IBMEBCDIC) 1145:西班牙文(Euro)(IBMEBCDIC) 1146:UK(Euro)(IBMEBCDIC) 1147:法文(Euro)(IBMEBCDIC) 1148:International-Euro(IBMEBCDIC) 1149:冰島文(Euro)(IBMEBCDIC) 1200:unicode(小印第安格式) 1201:unicode(大印第安格式) 1250:中歐語系windows 1251:斯拉夫語系/俄文windows 1252:西歐語系(windows) 1253:希臘文windows(windows) 1254:土耳其文(windows) 1255:希伯來文windows(windows) 1256:阿拉伯文windows 1257:波羅的海文windows 1258:越南文(windows) 1361:韓文johab 10000:西歐語系(mac) 10001:日文(mac) 10002:繁體中文big5(mac) 10003:韓文(mac) 10004:阿拉伯文(mac) 10005:希伯來文(mac) 10006:希臘文(mac) 10007:斯拉夫語系/俄文(mac) 10008:簡體中文gb(mac) 10029:中歐語系(mac) 10079:冰島文(mac) 10081:土耳其文(mac) 20000:繁體中文CNS 20002:繁體中文big5(倚天) 20105:西歐語系(IA5) 20106:德文(IA5) 20107:瑞典文(IA5) 20108:挪威文(IA5) 20127:US-ASCII 20273:德文(IBMEBCDIC) 20277:丹麥/挪威(IBMEBCDIC) 20278:芬蘭/瑞典(IBMEBCDIC) 20280:義大利文(IBMEBCDIC) 20284:西班牙文(IBMEBCDIC) 20285:UK(IBMEBCDIC) 20290:日文shift-jis(IBMEBCDIC) 20420:阿拉伯文(IBMEBCDIC) 20423:希臘文(IBMEBCDIC) 20424:希伯來文(IBMEBCDIC) 20833:韓文擴充(IBMEBCDIC) 20838:泰文(IBMEBCDIC) 20866:俄文koi8-r 20871:冰島文(IBMEBCDIC) 20880:俄文(IBMEBCDIC) 20905:土耳其文(IBMEBCDIC) 21025:Serbian-Bulgarian(IBMEBCDIC) 21866:俄文koi8-u 28591:(iso-8859-1)西歐語系(Latin1) 28592:(iso-8859-2)中歐語系iso(Latin2) 28593:(iso-8859-3)南歐語系(Latin3) 28594:(iso-8859-4)北歐語系/波羅的海文iso(Latin4) 28595:(iso-8859-5)斯拉夫語系/俄文iso 28596:(iso-8859-6)阿拉伯文iso 28597:(iso-8859-7)希臘文iso 28598:(iso-8859-8)希伯來文iso(visual) 28599:(iso-8859-9)土耳其文(Latin5) 28600:(iso-8859-10)北歐語系(Latin6) 28601:(iso-8859-11)泰文 28602:(iso-8859-12)保留(原預定為印度天城體梵文) 28603:(iso-8859-13)波羅的海文(Latin7) 28604:(iso-8859-14)Celtic(Latin8) 28605:(iso-8859-15)Latin9 28606:(iso-8859-16)東南歐語系(Latin10) 29001:Europa 38598:希伯來文iso(logical) 50000:使用者定義 50220:日文jis 50221:日文jis+1byteKana 50222:日文jis+esc序列 50225:韓文euc-kr(iso) 50930:日文(IBMEBCDIC) 50931:日文+加拿大文(IBMEBCDIC) 50932:日文自動選擇 50933:韓文(IBMEBCDIC) 50935:簡體中文(IBMEBCDIC) 50937:繁體中文(IBMEBCDIC) 50939:日文+拉丁文(IBMEBCDIC) 50949:韓文自動選擇 51932:日文euc-jp 51936:簡體中文gb 51949:韓文euc-kr(euc) 52936:簡體中文hz 57002:Devanagari(ISCII) 57003:Bengali(ISCII) 57004:Tamil(ISCII) 57005:Telugu(ISCII) 57006:Assamese(ISCII) 57007:Oriya(ISCII) 57008:Kannada(ISCII) 57009:Malayalam(ISCII) 57010:Gujarathi(ISCII) 57011:Panjabi(ISCII) 65000:utf-7 65001:utf-8 註:標示Euro表示有Euro符號 參考資料: http://www.destructor.de/firebird/charsets.htm http://www.linuxforum.net/chinese/topic/lcr-3.html http://www.microsoft.com/globaldev/reference/cphome.mspx MSDN/HTMLCharacterSets/CharacterSetRecognition 上一篇[轉貼]c#word操作 下一篇綠色工廠2.0哇哇3C介紹本工作室開發的【速可打謄稿機】 相關文章 [轉貼]JavaScriptArray陣列操作方法大全(含ES6) [轉貼]使用Regex.Split處理字串分割 [轉貼]SQLite日期和時間的操作 [轉貼]製作可重複使用的分頁WebUserControl [轉貼]正則表達式30分鐘入門教程(第二版) 人氣:5724分類:正則表達式本分類上下篇:[轉貼]notepad正則表示式規則運算式範例 收藏/轉貼: 我要留言 [轉貼]c#word操作 綠色工廠2.0哇哇3C介紹本工作室開發的【速可打謄稿機】 關於我 酷龍 文章分類 聽打逐字稿、字幕(17) C#(131) JavaScript&jQuery(40) ASP.NET(61) SQL&LINQ(25) 實用開發資源(16) 輸入法(3) 系統操作(2) 實用網站(5) 正則表達式(8) DOS(1) RWD&CSS(6) 未分類文章 最新文章 歡迎使用速可打工作室自行開發2種免費聽打逐字稿&上字幕工具軟體(07-22) [轉貼]如何寫一隻自己能夠刪除自己或是更新自己的程式(04-13) [轉貼]Array.slice8種不同用法(02-13) [轉貼]JavaScriptArray陣列操作方法大全(含ES6)(02-06) 綠色工廠2.0哇哇3C介紹本工作室開發的【速可打謄稿機】(09-19) [轉貼]各種語系的unicode對應以及local編碼方式(08-29) [轉貼]c#word操作(08-23) [轉貼]notepad正則表示式規則運算式範例(08-16) [轉貼]產生XML時多出BOM之解決辦法(08-07) [轉貼]泛型技術:解決泛型轉型問題(08-07) 加我為好友 按這裡,加我為好友 人氣 今日人氣:21累積人氣:968,133 誰來我家 拇指姑娘 峰峰 mini 大胖齡 yoyo媽 年齡不詳 吟先 老李 比比寶貝 JuliaWu 亞日 企鵝王子 盒子小幫手 tonew1983 FanGg felicia
延伸文章資訊
- 1日文是什么编码 - 百度知道
Shift JIS Shift_JIS是一个日本电脑系统常用的编码表。它能容纳全角及半角拉丁字母、平假名、片假名、符号及日语汉字。 它被命名为Shift_JIS的原因,是它在放置全角 ...
- 2文字編碼雜談(2)
或許是因為日文環境在Unicode 之前曾經有兩套相對流行的DBCS 編碼的關係吧,這種亂碼現象在日文環境之內就已經很常見了,不需要到跨語言交換才會出現。
- 3[轉貼] 各種語系的unicode對應以及local編碼方式 - 聽打逐字稿
日文. Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼) 備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理 locale編碼: Shift-JIS, EU...
- 4Unicode - 維基百科,自由的百科全書
Unicode除了視覺上的字形、編碼方法、標準的字元編碼資料外,還包含了字元特性( ... 舉例來說,全形格式區段包含了主要的拉丁字母的全形格式,在中文、日文、以及韓文 ...
- 551307-法學日文選讀(二) 歷史開課清單 - 東海大學課程資訊網