UTF-8 - Wikiwand

文章推薦指數: 80 %
投票人數:10人

當然,任何編碼都是可以被轉換到這個範圍,但在unicode中他們並不代表任何合法的值。

例如,希伯來語字母aleph(א)的Unicode代碼是U+05D0,按照以下方法改成UTF-8:. Introduction歷史结构描述UTF-8编码字节含义設計UTF-8的理由UTF-8的編碼方式UTF-8的特性UTF-8編碼的優點UTF-8編碼的缺點編寫不良的解析器不利于正则表达式检索其他UTF-8的衍生物WindowsPosix系统Java變種UTF-8MacOSXMySQL参閱参考文献外部連結UTF-8()是一種針對Unicode的可變長度字元編碼,也是一种前缀码。

它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码,属于Unicode标准的一部分,最初由肯·汤普逊和罗布·派克提出。

[2][3]由于较小值的编码点一般使用频率较高,直接使用Unicode编码效率低下,大量浪费内存空间。

UTF-8就是为了解决向后兼容ASCII码而设计,Unicode中前128个字符,使用与ASCII码相同的二进制值的单个字节进行编码,而且字面与ASCII码的字面一一对应,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。

因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。

UTF-8语言國際标准Unicode分类EASCII变长编码(英语:)Unicode转换格式拓展自US-ASCII变换/编码ISO10646(Unicode)前用UTF-1论编顯示了谷歌所記錄的2001年至2012年主要編碼方法的使用情況,[1]2008年,UTF-8的使用率超过所有其他编码方式,在2012年超过所有网页的60%。

其中曲线包括所有仅包含ASCII字符的网页,无论元数据中声明如何。

自2009年以来,UTF-8一直是万维网的最主要的编码形式(对所有,而不仅是Unicode范围内的编码)(并由WHATWG宣布为强制性的“适用于所有事物()”,[4]截止到2019年11月,在所有网页中,UTF-8编码应用率高达94.3%(其中一些仅是ASCII编码,因为它是UTF-8的子集),而在排名最高的1000个网页中占96%。

[5]第二热门的多字节编码方式ShiftJIS和GB2312分别具有0.3%和0.2%的占有率。

[6][7][1]Internet邮件联盟()建议所有电子邮件程序都能够使用UTF-8展示和创建邮件,[8]W3C建议UTF-8作为XML文件和HTML文件的默认编码方式。

[9]網際網路工程工作小組(IETF)要求所有網際網路協議都必須支持UTF-8編碼[10]。

互聯網郵件聯盟(IMC)建議所有電子郵件軟件都支持UTF-8編碼。

[11]



請為這篇文章評分?