关于Encode in UTF-8 without BOM_绯浅yousa的博客
文章推薦指數: 80 %
关于Encode in UTF-8 without BOM定义BOM(Byte Order Mark),字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的 ...
关于EncodeinUTF-8withoutBOM
绯浅yousa
于 2016-09-3000:04:33 发布
3663
收藏
2
分类专栏:
工作经验
编程
文章标签:
utf-8
编码
unicode
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_15437667/article/details/52706217
版权
工作经验
同时被2个专栏收录
37篇文章
0订阅
订阅专栏
编程
7篇文章
0订阅
订阅专栏
关于EncodeinUTF-8withoutBOM
定义
BOM(ByteOrderMark),字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的编码。
介绍
UTF-8不需要BOM,尽管Unicode标准允许在UTF-8中使用BOM。
但不含BOM的UTF-8才是标准形式,在UTF-8文件中放置BOM主要是微软的习惯(顺便提一下:把带有BOM的小端序UTF-16称作「Unicode」而又不详细说明,这也是微软的习惯)。
「UTF-8」和「带BOM的UTF-8」的区别就是有没有BOM。
即文件开头有没有U+FEFF。
UTF-8的网页代码不应使用BOM,否则常常会出错。
这是一个小例子:[为什么这个网页代码内的信息会被浏览器理解为在内?][1]
为什么BOM不受欢迎
BOM不受欢迎主要是在UNIX环境下,因为很多UNIX程序不鸟BOM。
主要问题出在UNIX那个所有脚本语言通行的首行#!标示,这东西依赖于shell解析,而很多shell出于兼容的考虑不检测BOM,所以加进BOM时shell会把它解释为某个普通字符输入导致破坏#!标示,这就麻烦了。
其实很多现代脚本语言,比如Python,其解释器本身都是能处理BOM的,但是shell卡在这里,没办法,只能躺着也中枪。
说起来这也不能怪shell,因为BOM本身违反了一个UNIX设计的常见原则,就是文档中存在的数据必须可见。
BOM不能作为可见字符被文本编辑器编辑,就这一条很多UNIX开发者就不满意。
顺便说一句,即使脚本语言能处理BOM,随处使用BOM也不是推荐的办法。
各个脚本语言对Unicode的处理都有自己的一套,Python的#--coding:utf-8--,Perl的useutf8,都比BOM简单而且可靠。
另一个好消息是,即使是必须在Windows和UNIX之间切换的朋友也不会悲催。
幸亏在UNIX环境下我们还有VIM这种神器,即使遇到BOM挡道,我们也可以通过setnobomb;setfileencoding=utf8;w三条命令解决问题。
最后回头想想,似乎也真就只有Windows坚持用BOM了。
所以
Windows该死的记事本有个臭名昭著的破毛病就是在UTF-8文件开头加BOM,所以不要用记事本来编辑文件。
绯浅yousa
关注
关注
0
点赞
踩
2
收藏
打赏
0
评论
关于EncodeinUTF-8withoutBOM
关于EncodeinUTF-8withoutBOM定义BOM(ByteOrderMark),字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的编码。
介绍UTF-8不需要BOM,尽管Unicode标准允许在UTF-8中使用BOM。
但不含BOM的UTF-8才是标准形式,在UTF-8文件中放置BOM主要是微软的习惯(顺便提一下:
复制链接
扫一扫
专栏目录
python中utf8_PythonUTF8的一些基础知识
weixin_40005437的博客
12-15
140
关于EncodeinUTF-8withoutBOM关于EncodeinUTF-8withoutBOM定义BOM(ByteOrderMark),字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的编码。
介绍UTF-8不需要BOM,尽管Unicode标准允许在UTF-8中使用BOM。
但不含BOM的UTF-8才是标准形式,在U...
keilmdk中文乱码,两种解决方法,字体不再难看
最新发布
自由的天空
11-08
5621
方法一:修改成EncodeinUTF-8withoutsignature
我嘞个去!被字符编码整晕了,unicode,ANSI,UTF-8,GB2312。
。
。
新版mdk(4.6,4.7)支持直接显示中文了,但光标老是半个半个的跳,超级不爽!
按以前的解决方法,edit-->configration-->editer里面的Encoding修改为ChineseGB2132。
但是!!!本来很好看的默认字体,修改GB2132以后,咋看咋觉得丑的不行~~~那个叫郁闷啊!
后来,发现不要修改
参与评论
您还未登录,请先
登录
后发表或查看评论
UTF-8与UTF-8withoutBOM
JustdoIT
04-23
1万+
UTF-8编码的文件可以分为withoutBOM和BOM两种格式。
何谓BOM?"EFBBBF"这三个字节就叫BOM,BOM的全称叫做"ByteOrderMark".在UTF-8文件中常用BOM来表明这个文件是UTF-8文件,而BOM的本意是在UTF-16中用来表示高低字节序列的。
在字节流之前有BOM表示采用低字节序列(低字节在前面),而UTF-8不用考虑字节序列,所以其实
Python学习笔记:BOM
founderznd
08-13
1万+
windows对于utf-8编码的文件自带BOM,但是其他系统utf-8编码默认不带BOM。
这就造成在某些情况下字符解码会出现问题,比如python自带的json在读取在window下编码得来的utf-8文件时,会报如下错误:
ValueError:NoJSONobjectcouldbedecoded
BOM
FromWikipedia,thef
利用python将文件转换为utf8无BOM
会吃狼的鳄鱼
05-19
6581
如何将一个文件,转换为utf8无BOM的文件呢;这里使用python做了实现
#!/usr/bin/envpython
#-*-coding:utf-8-*-
##########################################################
#Acleverpersonsolvesaproblem.Awisepersonav
Pythonencode方法:XX.encode(‘utf-8‘)究竟是什么?
qq_49551075的博客
07-24
1万+
Pythonencode方法:XX.encode(‘utf-8’)究竟是什么?
在Python学习中,我们经常会碰到这些内容:
S.encode([encoding='utf-8'][,errors='strict'])
这时,我们会想等会去看看这究竟是什么?然后,就没有等会了。
。
。
当然,也有人会觉得记就完事了。
但不管怎样,我在这里简单讲一下它,希望帮助到大家。
一.描述
encode()方法以指定的编码格式编码字符串,默认编码为‘utf-8’。
对应的解码方法:bytesdecode()
请求时的编码问题Usebody.encode(‘utf-8‘)ifyouwanttosenditencodedinUTF-8
weixin_40340586的博客
09-09
753
今天发现一个网站,新榜,是各大网站,视频好的排行网站,请求时动态网页的xhr。
网络里选择xhr
刷新就可以看到数据。
代码如下:
importrequests
headers={
'authority':'www.newrank.cn',
'sec-ch-ua':'"MicrosoftEdge";v="95","Chromium";v="95",";NotABrand";v="99"',
'accept':'application/json,
UTF-8withoutBOM
宇脩
05-28
572
UTF-8编码的文件有withoutBOM和BOM两种格式,最好使用UTF-8withoutBOM格式。
BOM,即ByteOrderMark,意为字节序标记。
UTF-8编码的文件中,BOM占三个字节。
如果用记事本把一个文本文件另存为UTF-8编码方式的话,用UE打开这个文件,切换到十六进制编辑状态就可以看到开头的FFFE了,软件通过BOM来识别这个文件是否是UTF-8编码。
BOM的本意是在UTF-16中用来表示高低字节序列的。
在字节流之前有BOM表示采用低字节序列(低字节在前面),而UTF-8
encode_utf8把字符编码成字节decode_utf8解码UTF-8到字符
weixin_30887919的博客
07-10
522
encode_utf8
$octets=encode_utf8($string);
Equivalentto"$octets=encode("utf8",$string)".Thecharactersin
$stringareencodedinPerl'sinternalformat,andtheresultis...
vs2015:/utf-8选项解决UTF-8withoutBOM源码中文输出乱码问题
热门推荐
10km的专栏
05-05
2万+
本来我已经参考网上关于C++中文输出乱码的文章解决了,如下面的代码输出前调用wcout.imbue设置locale,就可以正常输出中文了。
std::wcout.imbue(std::locale(std::locale(),"",LC_CTYPE));
std::wcout<<L"江清月近人"<<std::endl;
但是同样的方法换在另一个程序中还是...
encode()和decode()的区别
zy50721235的博客
12-05
1012
encode()和decode()
decode英文意思是解码,encode英文原意编码
字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码,如str1.d...
ConvertUTF-8withBOMtoUTF-8withoutBOMinPython
Nicholas的专栏
07-25
1408
windows对于utf-8编码的文件自带BOM,但是其他系统utf-8编码默认不带BOM。
这就造成在某些情况下字符解码会出现问题,比如python自带的json在读取在window下编码得来的utf-8文件时,会报如下错误:
ValueError:NoJSONobjectcouldbedecoded
方法一:
f=open("data","r")
s=f.rea...
UTF-8andUTF-8withoutBOM
weixin_38169562的博客
12-23
61
原文地址:http://zadecn.wordpress.com/2009/11/02/所见非所jjj得-c的代码编码encoding/
CPP的源代码是文本文件,所以可以保存为各种形式(format),例如ASCII编码,UTF-8,UTF-8withoutBOM等.那么这些编码会带来一些问题吗?
因为习惯了在windows下编码,一致没有遇到类似的问题;最近在linux下使用...
EncodeinUTF-8WithoutBOM
first10010的专栏
02-09
1095
http://www.cnblogs.com/findumars/p/3620078.html
【python】encode()中utf-8的正确称呼及python支持的编码方式
amber_o0k的博客
03-22
2655
pythonencode(),标准名称UTF_8,
别称:U8,UTF,utf8,utf-8
这些都是正确的称呼,带上引号填入encode均可以被识别。
https://yiyibooks.cn/xx/python_352/library/codecs.html#module-codecs
...
成功解决SyntaxError:encodingproblem:utf8withBOM
一个处女座的程序猿
09-11
6668
成功解决SyntaxError:encodingproblem:utf8withBOM目录解决问题解决思路解决方法SyntaxError:encodingproblem:utf8withBOM语法错误:编码问题:utf8与BOM定位到该packages,找到对应py文件,将py文件头部的代码,#coding:utf8,删掉或者注释掉即可!
哈哈,大功告成!...
UTF8最好不要带BOM,附许多经典评论
muye0503的专栏
12-03
2158
UTF-8不需要BOM,尽管Unicode标准允许在UTF-8中使用BOM。
所以不含BOM的UTF-8才是标准形式,在
UTF-8文件中放置BOM主要是微软的习惯(顺便提一下:把带有BOM的小端序UTF-16称作「Unicode」而又不详细说明,这也是微软的习惯)。
BOM(byteordermark)是为UTF-16和UTF-32准备的,
字符编码(utf-8withoutbom与Unicode)
wangpeng322的博客
06-08
638
由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码。
但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。
你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各...
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022CSDN
皮肤主题:编程工作室
设计师:CSDN官方博客
返回首页
绯浅yousa
CSDN认证博客专家
CSDN认证企业博客
码龄8年
暂无认证
242
原创
3万+
周排名
155万+
总排名
189万+
访问
等级
1万+
积分
132
粉丝
291
获赞
102
评论
698
收藏
私信
关注
热门文章
git设置用户名密码
262238
'python'不是内部或外部命令,也不是可运行的程序或批处理文件。
143322
gitpull时遇到error:cannotlockref'xxx':refxxxisat(一个commitID)butexpected的解决办法
95841
使用VSCODE+PlantUML高效画图
60685
tar.gz和tar.bz2解压命令
52476
分类专栏
api网关
3篇
ingress
1篇
跨域
2篇
xcode
3篇
ios
5篇
h264
1篇
编程
7篇
valgrind
1篇
linux内核
11篇
linux基础
17篇
IPVS
5篇
python
16篇
git
10篇
笔记
73篇
内存基础
4篇
锁
1篇
计算机网络
14篇
TCP-IP
8篇
ubuntu
linux工具
20篇
工作经验
37篇
mac
3篇
linux环境配置
12篇
非技术
21篇
go
52篇
c
12篇
架构
10篇
人工智能
1篇
语音
1篇
json
3篇
nginx
4篇
leetcode
23篇
leetcode
http
4篇
推荐好文
12篇
容器
1篇
图像引擎
c++
8篇
stl
3篇
java
1篇
gdb调试
1篇
知识管理
2篇
gdb
2篇
docker
4篇
linux编程
6篇
问题记录
1篇
产品
1篇
lintcode
1篇
mysql
11篇
protobuf
1篇
C#
1篇
lua
3篇
最新评论
'python'不是内部或外部命令,也不是可运行的程序或批处理文件。
t18320972447:
装个everything搜
'python'不是内部或外部命令,也不是可运行的程序或批处理文件。
m0_57933826:
博主,忘记python的的安装位置了怎么查看
git设置用户名密码
qq_51596125:
你这也没写设置密码吧??
ipvs负载均衡(三)ipvs三种工作方式
leinchu:
你的ip看起来很混乱,不像是正确的配置
git设置用户名密码
shy_snow:
[credential]
helper=store
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
Linux下connect()函数的错误代码对应含义
宅家学习,如何进行KubernetesIngress控制器的技术选型?
跨域资源共享CORS的那些事(二)
2020年2篇
2019年13篇
2018年38篇
2017年118篇
2016年139篇
2015年11篇
目录
目录
分类专栏
api网关
3篇
ingress
1篇
跨域
2篇
xcode
3篇
ios
5篇
h264
1篇
编程
7篇
valgrind
1篇
linux内核
11篇
linux基础
17篇
IPVS
5篇
python
16篇
git
10篇
笔记
73篇
内存基础
4篇
锁
1篇
计算机网络
14篇
TCP-IP
8篇
ubuntu
linux工具
20篇
工作经验
37篇
mac
3篇
linux环境配置
12篇
非技术
21篇
go
52篇
c
12篇
架构
10篇
人工智能
1篇
语音
1篇
json
3篇
nginx
4篇
leetcode
23篇
leetcode
http
4篇
推荐好文
12篇
容器
1篇
图像引擎
c++
8篇
stl
3篇
java
1篇
gdb调试
1篇
知识管理
2篇
gdb
2篇
docker
4篇
linux编程
6篇
问题记录
1篇
产品
1篇
lintcode
1篇
mysql
11篇
protobuf
1篇
C#
1篇
lua
3篇
目录
评论
被折叠的 条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
绯浅yousa
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:--)
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
0
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值
延伸文章資訊
- 1关于Encode in UTF-8 without BOM_绯浅yousa的博客
关于Encode in UTF-8 without BOM定义BOM(Byte Order Mark),字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的 ...
- 2UTF 8 without BOM - 程序員學院
utf-8編碼的檔案有without bom和bom兩種格式,最好使用utf-8 without bom格式。 bom的含義. bom,即byte order mark,意為位元組序標記。utf...
- 3How to remove BOM from any text/XML file - IBM
- 4Remove byte-order mark from the beginning of the file
- 5ASCII、Unicode、UTF-8、UTF-8(without BOM)傻傻分不清
UTF-8以单字节为编码单元,不存在字节序的问题,但是可以使用BOM来表明所使用的编码方式,字符”ZERO WITH NO-BREAK SPACE“在UTF-8中的编码是EF BB ...