python去除BOM头\ufeff等特殊字符- 凌度- 博客园

文章推薦指數: 80 %
投票人數:10人

1.\ufeff 字节顺序标记去掉\ufeff,只需改一下编码就行,把UTF-8编码改成UTF-8-sigwith open(file_path, mode='r', encodin. 首页 新闻 博问 专区 闪存 班级 我的博客 我的园子 账号设置 简洁模式... 退出登录 注册 登录                         python去除BOM头\ufeff等特殊字符 1.\ufeff字节顺序标记 去掉\ufeff,只需改一下编码就行,把UTF-8编码改成UTF-8-sigwithopen(file_path,mode='r',encoding='UTF-8-sig')asf:s=f.read() 2.\xa0是不间断空白符 \xa0是不间断空白符 我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。

而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breakingspace)。

latin1字符集向下兼容ASCII(0x20~0x7e)。

通常我们见到的字符多数是latin1的,比如在MySQL数据库中。

去除\xa0str.replace(u'\xa0',u'') 3.\u3000是全角的空白符 根据Unicode编码标准及其基本多语言面的定义,\u3000属于CJK字符的CJK标点符号区块内,是空白字符之一。

它的名字是IdeographicSpace,有人译作表意字空格、象形字空格等。

顾名思义,就是全角的CJK空格。

它跟nbsp不一样,是可以被换行间断的。

常用于制造缩进,wiki还说用于抬头,但没见过。

去除\u3000str.replace(u'\u3000',u'')去除空格和\xa0、\u3000title.strip().replace(u'\u3000',u'').replace(u'\xa0',u'') postedon 2019-09-0314:33  凌度  阅读(2311)  评论(0)  编辑  收藏  举报 刷新评论刷新页面返回顶部



請為這篇文章評分?