utf-8编码表 - CSDN
文章推薦指數: 80 %
分享一个UTF-8对照表的链接,方便查询. https://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=dec. 就这么简单的博客,哈哈哈.
精华内容
下载资源
问答
我要提问
utf-8编码表
万次阅读
2020-07-1318:41:19
分享一个UTF-8对照表的链接,方便查询
https://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=dec
就这么简单的博客,哈哈哈
java
更多相关内容
中文字符UTF-8编码查询表
2021-10-0616:08:24
为大家提供Python的UTF-8编码查询表,大家可以对照左列的编码查询右列的汉字。
例:\u4e00对应汉字“一”
收起
utf-8unicode编码表
2018-03-2613:30:00
所有的utf-8unicode编码,都可以在表里面查询,方便进行文本处理.
收起
UTF-8编码表
2013-11-1709:46:21
如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节,而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。
用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE...
收起
UTF-8字符集汉字对照表.txt
2019-11-0901:07:58
此文本文档是UTF-8字符集中汉字编码对照表,可以用于查看某个汉字在UTF-8编码集中的位置。
此编码集对照表非官网下载,如需使用,请提前预估风险。
另外,此对照表只用于学习研究,如需用到其他地方,后果自负。
收起
UTF-8中文字符集表
2013-09-2517:35:57
UTF-8中文字符集表免费shareUTF-8--->ChineseCharsetTable
收起
汉字Ucode,GBK,UTF-8编码表(真实可用的三种编码!)
2012-12-0823:27:23
汉字Ucode,GBK,UTF-8编码表(真实可用的三种编码!,包含中文字符)在网上找UTF-8的中文编码,找到的很多都是虚假的、实际没有UTF-8的编码,于是就干脆自己整理、编写了一个,给需要的人使用!
收起
Unicode编码详解(三):UTF-8编码
千次阅读
2020-12-3118:29:09
Unicode编码详解(三):UTF-8编码若觉得本文写得还可以,请多多关注本人所作书籍《C++语法详解》电子工业出版社出版,网盘地址:https://pan.baidu.com/s/1dIxLMN5b91zpJN2sZv1MNg本文为原创文章,转载请注明出处...
Unicode编码详解(三):UTF-8编码
本文为原创文章,转载请注明出处,或注明转载自“黄邦勇帅(原名:黄勇)
本文是对《C++语法详解》一书相关章节的增补,以增强读者对字符的理解,因为《C++语法详解》引用的标准过于老旧。
《C++语法详解》网盘地址:https://pan.baidu.com/s/1dIxLMN5b91zpJN2sZv1MNg
本文摘自本人所作《Unicode编码和双向算法(bidi)详解》网盘地址链接:https://pan.baidu.com/s/1LLKv22jQPmeba1XUCm0xoQ?pwd=a3x8提取码:a3x8
有兴趣的读者可参阅本人所著《C++语法详解》一书,电子工业出版社出版,该书语法示例短小精悍,对查阅C++知识点相当方便,并对语法原理进行了透彻、深入详细的讲解,可确保读者彻底弄懂C++的原理,彻底解惑C++,使其知其然更知其所以然。
此书是一本全面了解C++不可多得的案头必备图书。
由于本人能力有限,文中难免有错漏之处,望广大读者指出更正,不胜感激
注意:若对本文的专业术语不了解,请参阅本系列文章(一)和(二)
1、
UTF-8编码方式是目前使用最广泛的一种Unicode编码方式,但不是最早出现的,UTF-16比UTF-8早。
2、
UTF-8使用的是8位码元的变长码元序列编码方式,说简单点就是,使用变长字节来编码(即,编码后形成的二进制串长度不是固字的)。
注意,UTF-8的码元长度是固定的8位,但编码后形成的码元序列长度不是固定的。
UTF-8一般使用1到4个字节编码,当然也可以更长。
3、UTF-8编码方式的算法
首字节用于区分编码的字节数,即,从首字节就能判断出编码后有多少个字节。
规则为:除单字节编码以0开头外,多字节编码首字节1的个数用于判断编码后的字节长度,然后紧接着以数字0作为终结标志,除首字节外,多字节编码的后续字节以10开头,具体规则如表5所示
4、UTF-8编码方法
①、在表5中查找字符的码点所在的码点范围,以确定应使用几个字节编码该字符②、将字符的码点转换为二进制③、将转换后的二进制数值从右到左(即从最后一位低位开始)依次按相同顺序填充表5中的x,多出的x填充0。
④、示例:“汉”的Unicode的码点是U+6C49(110110001001001),其编码过程如下:
6C49在表5的码点范围为U+0800~U+FFFF,所以应使用3个字节编码将6C49的二进制数110110001001001从最后一位开始,按从右向左的顺序填充表5中的x,最终得到“汉”字的UTF-8编码为111001101011000110001001(0xE6B189),如图2所示
5、UTF-8解码过程
①、当读到一个字节的首位为0时,表示这是一个单字节编码的字符(即,ASCII字符)②、当读到一个字节的首位为1时,表示这是一个多字节编码的字符,分以下两种情形
情形1:若继续读到1,则表示这是首字节,然后继续读到0为止,一共读取了几个1,就表示这个字符为几个字节的编码,情形2:若紧接着读到0,则表示该字节为多字节编码的后续字节。
6、UTF-8编码方式的显著特点
①、节省存储空间
由于UTF-8使用的变长字节编码,所以,可以节省存储空间,比如,一个字节的ASCII字符,就可使用一个字节来存储,其他字符则可以使用多个字节来存储。
②、扩展性好
UTF-8的编码空间足够大(即,编码后的二进字串足够长),可适应Unicode标准更多的字符,因此,其扩展性好
③、与ASCII编码方式完全兼容
ASCII字符集中的字符(码点范围为U+0000~U+007F),用一个字节表示就可以了,其编码方式与ASCII编码一致,因此,UTF-8编码方式与ASCII编码方式完全兼容。
但是,扩展ASCII字符集(比如EASCII字符集)中的扩展字符需要2个字节来编码
④、无字节序
UTF-8编码方式已经明确了字节的顺序,因此不存在字节序的问题
⑤、字节0xFE、0xFF与字节序标记(BOM)
字节0xFE和0xFF永远不会在UTF-8编码中出现,因此,可使用这两个字节作为字节序标记(BOM)来标明UTF-16或UTF-32的字节序由于UTF-8编码不存在字节序的问题,因此没必要再添加BOM(即,字节序标记),若添加了BOM,则仅用于表明该文件是由UTF-8编码方式编码的,不再用于说明字节序。
事实上,为使用UTF-8编码的文件加上BOM是多此一举的事情,但是,Windows还是加上了BOM(比如,记事本就有BOM),由此造成了很多不必要的麻烦,比如Unix系统就不建议使用BOM。
注意:Windows为UTF-8加的BOM的值是0xEFBBBF,而UTF-16和UTF-32是直接以0xFEFF或0xFFFE来表示是大端序还是小端序的。
为什么使用的是0xEFBBBF呢?这是因为0xEFBBBF是把0xFEFF按UTF-8编码后所得到的二进制串。
所以,当遇到以0xEFBBBF开头的文件时,则表示这是以UTF-8的方式编码的文件
⑥、自同步和非传递性
自同步:由于UTF-8编码仅通过检查一个码元便可判断出当前字符的下一个字符的起始码元,每个字符的边界很明确,因此在传输过程中若有字节序列丢失,并不会造成乱码现象,或者,当存在错误的字节序列时也不会影响到其他字节的正常读取,这一性质被称为“自同步”。
比如,读取了一个10xxxxxx开始的字节,但找不到首字节,则可以直接丢弃后续字节,因为它没有意义。
非传递性:是指单一的UTF-8码元出错不会被传递到文本的其他部分去,仅涉入到该字符,因此,文本中某些字符数据被破坏,其影响是局部的。
若文本的编码不具有自同步和非传递性,则需从头开始分析文本才能确定不同字符的码元边界,同理,若局部字符数据被破坏,则很可能被传递到整个文本,从而导致整个文本都无法正确显示。
很多早期其他的字符编码方式并不具有这两个特性,如GBK、Big等。
⑦、不利于索引操作、计算字符数等由于UTF-8是变长编码的,所以,不能根据字符数量直接判断出UTF-8文本的字节数(即,文本大小),因此,计算字符数、正则表达式检索等操作的效率都不高。
7、
UTF-8是较为理想的编码方式,因此应尽量使用UTF-8,特别应尽量使用UTF-8withoutBOM(即,不带BOM的UTF-8)
本文作者:黄邦勇帅(原名:黄勇)
收起
展开全文
unicode编码
UTF-8
UTF-16
UTF-8汉字码表.txt
2021-02-0417:15:52
utf-8中文汉字编码表
收起
utf-8编码规则
千次阅读
2022-02-1210:26:13
很想弄清楚utf-8中汉字是如何编码的,后来看到UTF-8编码规则(转),惊喜,所以记录一下。
utf-8编码规则UTF-8是一种变长字节编码方式。
对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多...
背景
最近将程序从x86_64Qt5.12向armQt4.8环境上迁移时,遇到汉字乱码问题。
很想弄清楚utf-8中汉字是如何编码的,后来看到UTF-8编码规则(转),惊喜,所以记录一下。
utf-8编码规则
UTF-8是一种变长字节编码方式。
对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的位数,其余各字节均以10开头。
UTF-8最多可用到6个字节,其有效bit数为31。
如表:1字节0xxxxxxx2字节110xxxxx10xxxxxx3字节1110xxxx10xxxxxx10xxxxxx4字节11110xxx10xxxxxx10xxxxxx10xxxxxx5字节111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx6字节1111110x10xxxxxx10xxxxxx10xxxxxx10xxxxxx10xxxxxx
将UNICODE转换为UTF-8编码时应先去除高位0,然后根据所剩编码的位数决定所需最小的UTF-8编码位数。
因此,那些基本ASCII字符集中的字符(UNICODE兼容ASCII)只需要一个字节的UTF-8编码(7个二进制位)便可以表示。
汉字编码示例
开发环境Qt5.12.10,默认启用utf-8编码格式。
测试utf-8编码向unicode转换示例。
#include
...UTF-8编码方案可能用1、2、3或4个字节表示一个unicode值。
UTF-16编码方案可能用2或4个字节表示一个unicode值。
...
收起
utf8
utf16
utf-8
utf-16
UTF8编码表汉字对照
2014-09-1617:34:09
电脑UTF8编码表完不完整不知道也是找的嗯就是这样
收起
UTF8编码表
UTF-8编码原理
万次阅读
多人点赞
2018-09-1410:51:27
打开”记事本“程序Notepad.exe,新建一个文本文件,内容就是一个”严“字,依次采用ANSI,Unicode,Unicodebigendian和UTF-8编码方式保存,然后,用文本编辑软件UltraEdit中的”十六进制功能“,观察该文件的...
收起
UTF-8编码规则
万次阅读
多人点赞
2019-04-2510:10:40
转 UTF-8编码规则(转) 2018年08月08日00:24:18 机器猫的世界 阅读数:1463 ...
收起
编码规则
UTF-8的编码规则
千次阅读
2021-11-1017:40:02
因此对于英文字符,UTF-8编码和ASCII码是相同的。
2、对于n字节的字符(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。
剩下的没有提及的二进制位,全部为这个字符的Unicode编码。
...
收起
史上最简单易懂的简析utf-8编码
千次阅读
2020-09-0311:09:00
对于程序员来说utf-8编码那真是很常见的了,但试问有多少人知道utf-8内在的原理?下面我尽量使用最短的时间让你了解utf-8。
这里不讨论编码历史的发展,那对于现在的你可能毫无意义。
假定你对二进制有所了解,并且...
收起
Java_常用编码(Unicode和UTF-8编码)
千次阅读
2022-02-2623:49:08
Unicode编码介绍1、Unicode的好处:一种编码,将世界上所有的符号都纳入其中。
每一个符号都给予一个独一无二的编码,使用Unicode没有乱码的问题。
2、Unicode的缺点:一个英文字母和一个汉字都占用两个...UTF-8
收起
java
UTF-8编码详解
万次阅读
多人点赞
2018-12-0315:29:27
1.ASCII编码因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。
最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制...
收起
UTF-8编码占几个字节?
千次阅读
2021-12-0809:44:36
占2个字节的:带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文...一个utf8数字占1个字节一个utf8英文字母占1个字节少数是汉字每个占用3个字节,多数占用4个字节。
占用3个字节的范围U+2E80-
收起
c语言实现utf-8编码解码器
千次阅读
2019-01-2221:05:20
简单介绍一下utf-8编码,utf-8编码是一种变长的编码方式,长度为1-4字节。
当码长为1字节的时候,兼容ascii编码,格式为0xxxxxxx(x处表示有效位)当码长为2字节的时候,格式为110xxxxx10xxxxxx高字节的110...
收起
utf-8编码
UTF-8编码规则解析
千次阅读
2017-12-2810:23:06
对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的位数,其余各字节均以10开头。
UTF-8最多可用到6个字节。
...
收起
UTF-8编码
UTF-8和不带BOM的UTF-8有什么区别?
千次阅读
2019-12-2009:24:02
没有BOM的UTF-8和UTF-8有什么区别?哪个更好?
收起
utf-8
utf-8等编码方式汉字和英文各占据的字节数
千次阅读
2019-09-2915:18:42
UTF-8编码下一个汉字(包括中文形式下的符号)一般是3个字节,一个英文(包括英文下的符号)1个字节,一个数字1个字节;在GBK和GB2312编码下一个汉字(包括中文形式下的符号)是2个字节,一个英文(包括英文下的符号)1个...
收起
java中GBK与UTF-8编码的转换
万次阅读
多人点赞
2019-06-2515:08:59
java中文件编码的转换,主要说明了GBK与UTF-8编码之间的转换,还介绍了利用cpdetector开源库确定文件文件(网页)编码的方法。
收起
编码转换
UTF-8和UTF-16简介
千次阅读
2022-06-2514:12:22
首先介绍unicode,最开始计划有31位,但到后来一执行,发现0x0~10FFFF就够用了,仅有21位。
UTF-8是一种变长、多字节编码方案,从一字节模式,到六字节模式。
虽然unicode只到21位,...分析一个UTF-8编码的文件,看第一
收起
汉字字符编码(utf-8unicodegb2312)
2014-12-0110:43:10
utf-8unicodegb2312汉字编码
收起
UTF-8编码规则(转)
万次阅读
多人点赞
2018-08-0800:24:18
UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的...
收起
空空如也
空空如也
1
2
3
4
5
...
20
收藏数
264,258
精华内容
105,703
热门标签
utf8编码对照表
utf-8编码gbk对照表
hive创建表指定编码utf8
utf8英文编码对照表
pythonutf8表情包编码
pythonutf-8编码表情
mysql修改表编码utf8
gb18030编码表和utf-8
mysq表l编码设置为utf8
mysql创建表使用utf8编码
相关推荐
phputf-8编码去bom小工具
NULL博文链接:https://snowelf.iteye.com/blog/786400
UTF-8互转GBK
UTF-8GBK转化工具C++源代码编码转化主要用于跨平台的源代码编译,防止乱码
ecshop-ueditor1.3.6-UTF-8.rar
ecshop替换编辑器为ueditor文件,博文对应文件
记事本软件还原可以高亮显示各种语法自定义语法高亮支持ANSI,Unicode,UTF-8等编码互换
2支持ANSI,Unicode,UTF-8等编码互换3可以设置无限个书签(9种图标可换)轻松定位4空格,制表符彩色显示,并可互相转换5可以对任
百度编辑器ueditor(UTF-8).rar
百度编辑器ueditor(UTF-8).rar
关键字:utf-8编码表
延伸文章資訊
- 1Unicode / UTF-8 字元編碼區間表- 2013
- 2字元編碼詳解(ASCII、Unicode、UTF-32、UTF-8) - 古詩詞庫
下圖展示了ASCII 字符集對照表,其中包括了控制字元(回車鍵、退格、換行鍵等)和可顯示字元(英文大小寫字元、阿拉伯數字和西文符號)。 這種編碼方式就 ...
- 3查看字符编码(UTF-8)
查看字符编码(UTF-8). 请输入文字(可以输入多个): 如:“春眠不觉晓,处处闻啼鸟 ...
- 4Unicode、UTF-8、UTF-16,終於懂了 - 閱坊
... 具體字符對應的Unicode 編碼可以查詢 Unicode 字符編碼表 ... 因此對於英語字母,UTF-8 編碼和ASCII 碼是相同的, 所以UTF-8 能兼容ASCII 編碼,這 ...
- 5UTF-8 - 维基百科,自由的百科全书
UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一种前缀码。它可以用一至四个字节对Unicode字符集中的所有...