UTF-8_百度百科

文章推薦指數: 80 %
投票人數:10人

UTF-8(8位元,Universal Character Set/Unicode Transformation Format)是针对Unicode的一种可变长度字符编码。

它可以用来表示Unicode标准中的任何字符,而且其编码 ... 百度首页 网页 新闻 贴吧 知道 网盘 图片 视频 地图 文库 百科 首页 历史上的今天 百科冷知识 图解百科 秒懂百科 懂啦 秒懂本尊答 秒懂大师说 秒懂看瓦特 秒懂五千年 秒懂全视界 特色百科 数字博物馆 非遗百科 恐龙百科 多肉百科 艺术百科 科学百科 用户 蝌蚪团 热词团 百科校园 分类达人 百科任务 百科商城 知识专题 权威合作 合作模式 常见问题 联系方式 下载百科APP 个人中心 UTF-8 播报 编辑 锁定 讨论 上传视频 特型编辑 编码 收藏 查看我的收藏 0 有用+1 已投票 0 本词条由“科普中国”科学百科词条编写与应用工作项目 审核 。

UTF-8(8位元,UniversalCharacterSet/UnicodeTransformationFormat)是针对Unicode的一种可变长度字符编码。

它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部分修改后,便可继续使用。

因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

中文名 UTF-8 外文名 UTF-8,atransformationformatofISO10646 定    义 针对Unicode的可变长度字符编码 作    者 KenThompson、RobPike(罗布·派克) 创建时间 1992年09月 所属领域 计算机科学技术 现行标准号 RFC3629a.k.a.STD63 目录 1 发展历程 2 基本特征 3 编码字节数 4 字符集 5 优缺点 ▪ 优点 ▪ 缺点 UTF-8发展历程 编辑 播报 在所有字符集中,最知名的可能要数被称为ASCII的8位字符集了。

它是美国标准信息交换代码(AmericanStandardCodeforInformationInterchange)的缩写,为美国英语通信所设计。

它由128个字符组成,包括大小写字母、数字0-9、标点符号、非打印字符(换行符、制表符等4个)以及控制字符(退格、响铃等)组成。

但是,由于它是针对英语设计的,当处理带有音调标号(形如汉语的拼音)的亚洲文字时就会出现问题。

因此,创建出了一些包括256个字符的由ASCII扩展的字符集。

其中有一种通常被称为IBM字符集,它把值为128-255之间的字符用于画图和画线,以及一些特殊的欧洲字符。

另一种8位字符集是ISO8859-1Latin1,也简称为ISOLatin-1。

它把位于128-255之间的字符用于拉丁字母表中特殊语言字符的编码,也因此而得名。

欧洲语言不是地球上的唯一语言,因此亚洲和非洲语言并不能被8位字符集所支持。

仅汉语字母表(或pictograms)就有80000以上个字符。

但是把汉语、日语和越南语的一些相似的字符结合起来,在不同的语言里,使不同的字符代表不同的字,这样只用2个字节就可以编码地球上几乎所有地区的文字。

因此,创建了UNICODE编码。

它通过增加一个高字节对ISOLatin-1字符集进行扩展,当这些高字节位为0时,低字节就是ISOLatin-1字符。

UNICODE支持欧洲、非洲、中东、亚洲(包括统一标准的东亚象形汉字和韩国表音文字)。

但是,UNICODE并没有提供对诸如Braille(盲文),Cherokee,Ethiopic(埃塞俄比亚语),Khmer(高棉语),Mongolian(蒙古语),Hmong(苗语),TaiLu,TaiMau文字的支持。

同时它也不支持如Ahom(阿霍姆语),Akkadian(阿卡德语),Aramaic(阿拉米语),BabylonianCuneiform(古巴比伦楔形文字),Balti(巴尔蒂语),Brahmi(婆罗米文),Etruscan(伊特拉斯坎语),Hittite(赫梯语/西台语),Javanese(爪哇语),Numidian(努米底亚语),OldPersianCuneiform(古波斯楔形文字),Syrian(叙利亚语)之类的古老文字。

Unicode只是一组字符设定或者说是从数字和字符之间的逻辑映射的概念编码,但是它并没有指定代码点如何在计算机上存储。

UCS4、UTF-8、UTF-16(UTF后的数字代表编码的最小单位,如UTF-8表示最小单位1字节)在Unicode官方资料中,Unicode的编码方式有三种 [3]  :UTF-8、UTF-16、UTF-32。

由于UTF-8与字节序无关(无需BOM),同时兼容ASCII编码,使得UTF-8编码成为现今互联网信息编码标准而被广泛使用。

UTF-8基本特征 编辑 播报 UCS字符U+0000到U+007F(ASCII)被编码为字节0x00到0x7F(ASCII兼容)。

这意味着只包含7位ASCII字符的文件在ASCII和UTF-8两种编码方式下是一样的。

所有大于0x007F的UCS字符被编码为一个有多个字节的串,每个字节都有标记位集。

因此,ASCII字节(0x00-0x7F)不可能作为任何其他字符的一部分。

表示非ASCII字符的多字节串的第一个字节总是在0xC0到0XFD的范围里,并指出这个字符包含多少个字节。

多字节串的其余字节都在0x80到0xBF范围里。

这使得重新同步非常容易,并使编码无国界,且很少受丢失字节的影响。

UTF8分成单字节、双字节、三字节、四字节模式 [4]  。

UTF-8编码字符理论上可以最多到4个字节长,然而16位BMP字符最多只用到3字节长,BigendianUCS-4字节串的排列顺序是预定的,字节0xFE和0xFF在UTF-8编码中从未用到。

UTF-8编码字节数 编辑 播报 UTF-8使用1~4字节为每个字符编码:·一个US-ASCIl字符只需1字节编码(Unicode范围由U+0000~U+007F)。

·带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码(Unicode范围由U+0080~U+07FF)。

·其他语言的字符(包括中日韩文字、东南亚文字、中东文字等)包含了大部分常用字,使用3字节编码。

·其他极少使用的语言字符使用4字节编码。

UTF-8字符集 编辑 播报 UTF-8编码规则:如果只有一个字节则取值为0x00-0x7F。

其余字节按长度进行以下拓展:UTF-8由4种编码方式实现,即UTF8-1/UTF8-2/UTF8-3/UTF8-4 [2]  。

其中:UTF8,16进制编码表UTF8-10x00-0x7FUTF8-20xC2-0xDF0x80-0xBFUTF8-30xE00xA0-0xBF0x80-0xBF0xE1-0xEC0x80-0xBF0x80-0xBF0xED0x80-0x9F0x80-0xBF0xEE-0xEF0x80-0xBF0x80-0xBFUTF8-40xF00x90-0xBF0x80-0xBF0x80-0xBF0xF1-0xF30x80-0xBF0x80-0xBF0x80-0xBF0xF40x80-0x8F0x80-0xBF0x80-0xBF注:每种编码可能有多个编码范围,每个编码范围间,以空格作为每个字节的分隔符。

例如UTF8-3的第一个编码,其第一个字节取值必须为0xE0,第二个字节范围为0xA0-0xBF,第三个字节为0x80-0xBF。

UTF-8优缺点 编辑 播报 UTF-8优点 UTF-8编码可以通过屏蔽位和移位操作快速读写。

字符串比较时strcmp()和wcscmp()的返回结果相同,因此使排序变得更加容易。

字节FF和FE在UTF-8编码中永远不会出现,因此他们可以用来区分UTF-16或UTF-32文本。

UTF-8是字节顺序无关的。

它的字节顺序在所有系统中都是一样的,因此它实际上并不需要BOM。

[1]  UTF-8缺点 你无法从UNICODE字符数判断出UTF-8文本的字节数,因为UTF-8采用的是不定长的编码方式。

它需要用2个字节编码那些用扩展ASCII字符集只需1个字节的字符ISOLatin-1是UNICODE的子集,但不是UTF-8的子集8位字符的UTF-8编码会被email网关过滤,因为internet信息最初设计为7位ASCII码。

因此产生了UTF-7编码。

UTF-8在它的表示中使用值100xxxxx的几率超过50%,而现存的实现如ISO2022,4873,6429,和8859系统,会把它错认为是C1控制码。

因此产生了UTF-7.5编码。

[1]  百度百科内容由网友共同编辑,如您发现自己的词条内容不准确或不完善,欢迎使用本人词条编辑服务(免费)参与修正。

立即前往>> 分享你的世界 查看更多 UTF-8 📖【名称】UTF-8💡【作者】罗布·派克✨【图书风格】编码👍【推荐指数】🌟🌟🌟🌟🌟🍀【推荐理由】由罗布·派克创建是针对Unicode的一种可变长度字符编码。

它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCI 最寶贝Bill 参考资料 1    UTF-8andUnicodeFAQforUnix/Linux   .百度学术[引用日期2019-05-29] 2    RFC3629:UTF-8,atransformationformatofISO10646   .RFCEditor.2003-11-01[引用日期2021-04-26] 3    TheUnicode®Standard,Version14.0,Conformance   .Unicode.2021-09-01[引用日期2022-01-26] 4    UTF8格式简介   .CSDN[引用日期2022-07-18] 图集 UTF-8的概述图(1张) 科普中国 致力于权威的科学传播 本词条认证专家为 徐恒山 讲师审核 西北农林科技大学 V百科往期回顾 权威合作编辑 “科普中国”科学百科词条编写与应用工作项目 “科普中国”是为我国科普信息化建设塑造的全... 什么是权威编辑 词条统计 浏览次数:次 编辑次数:98次历史版本 最近更新: lixiwang (2022-07-18) 1 发展历程 2 基本特征 3 编码字节数 4 字符集 5 优缺点 优点 缺点 为您推荐广告 搜索发现 新手上路 成长任务 编辑入门 编辑规则 本人编辑 我有疑问 内容质疑 在线客服 官方贴吧 意见反馈 投诉建议 举报不良信息 未通过词条申诉 投诉侵权信息 封禁查询与解封 ©2022 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号  京公网安备11000002000001号 进入词条 清除历史记录关闭 播报 编辑 讨论  收藏 赞 登录 扫码下载百科APP 领取50财富值奖励 分享到微信朋友圈 打开微信“扫一扫”即可将网页分享至朋友圈 选择朗读音色 00:00 00:00



請為這篇文章評分?