python 爬虫爬取内容时, \xa0 、 \u3000 的含义 - 博客园
文章推薦指數: 80 %
最近用scrapy 爬某网站,发现拿到的内容里面含有\xa0 、 \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233 。
首页
新闻
博问
专区
闪存
班级
我的博客
我的园子
账号设置
简洁模式...
退出登录
注册
登录
BlackStorm
python爬虫爬取内容时,\xa0、\u3000的含义
最近用scrapy爬某网站,发现拿到的内容里面含有\xa0、\u3000这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233。
\xa0是不间断空白符
我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breakingspace)。
latin1字符集向下兼容ASCII(0x20~0x7e)。
通常我们见到的字符多数是latin1的,比如在MySQL数据库中。
这里也有一张简陋的Latin1字符集对照表。
\u3000是全角的空白符
根据Unicode编码标准及其基本多语言面的定义,\u3000属于CJK字符的CJK标点符号区块内,是空白字符之一。
它的名字是IdeographicSpace,有人译作表意字空格、象形字空格等。
顾名思义,就是全角的CJK空格。
它跟nbsp不一样,是可以被换行间断的。
常用于制造缩进,wiki还说用于抬头,但没见过。
这里还有一个Unicode.org上关于CJK标点符号块的字符代码表。
posted@
2017-02-0120:43
BlackStorm
阅读(41570)
评论(0)
编辑
收藏
举报
刷新评论刷新页面返回顶部
Copyright©2022BlackStorm
Poweredby.NET6onKubernetes
延伸文章資訊
- 1python 爬虫爬取内容时, \xa0 、 \u3000 的含义 - 博客园
最近用scrapy 爬某网站,发现拿到的内容里面含有\xa0 、 \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233 。
- 2python去除\ufeff、\xa0、\u3000 - 碼上快樂
今天使用python處理一個txt文件的時候,遇到幾個特殊字符:\ufeff、\xa0、\u3000,記錄一下處理方法. 代碼: with open(file_path, mode='r') a...
- 3Python爬蟲處理\xa0、\u3000、\u2002、\u2003等空格 - 壹讀
絕對乾貨,Python爬蟲處理\xa0、\u3000、\u2002、\u2003等空格 · 普通半角空格:英文空格鍵。 · 普通全形空格:中文空格鍵。 · 實體不間斷空格:html中的常用 ...
- 4python 爬蟲爬取內容時, \xa0 、 \u3000 的含義與處理方法
python爬蟲爬取內容時,\xa0、\u3000的含義轉自:https://www.cnblogs.com/BlackStorm/p/6359005.html處理方法str.replace(u...
- 5python去除\ufeff、\xa0、\u3000 - 程式人生
今天使用python處理一個txt檔案的時候,遇到幾個特殊字元:\ufeff、\xa0、\u3000,記錄一下處理方法. 程式碼: with open(file_path, mode='r') ...