python 爬虫爬取内容时, \xa0 、 \u3000 的含义 - 博客园

文章推薦指數: 80 %
投票人數:10人

最近用scrapy 爬某网站,发现拿到的内容里面含有\xa0 、 \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233 。

首页 新闻 博问 专区 闪存 班级 我的博客 我的园子 账号设置 简洁模式... 退出登录 注册 登录 BlackStorm python爬虫爬取内容时,\xa0、\u3000的含义 最近用scrapy爬某网站,发现拿到的内容里面含有\xa0、\u3000这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233。

\xa0是不间断空白符  我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。

而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breakingspace)。

latin1字符集向下兼容ASCII(0x20~0x7e)。

通常我们见到的字符多数是latin1的,比如在MySQL数据库中。

这里也有一张简陋的Latin1字符集对照表。

\u3000是全角的空白符 根据Unicode编码标准及其基本多语言面的定义,\u3000属于CJK字符的CJK标点符号区块内,是空白字符之一。

它的名字是IdeographicSpace,有人译作表意字空格、象形字空格等。

顾名思义,就是全角的CJK空格。

它跟nbsp不一样,是可以被换行间断的。

常用于制造缩进,wiki还说用于抬头,但没见过。

这里还有一个Unicode.org上关于CJK标点符号块的字符代码表。

posted@ 2017-02-0120:43  BlackStorm  阅读(41570)  评论(0)  编辑  收藏  举报 刷新评论刷新页面返回顶部 Copyright©2022BlackStorm Poweredby.NET6onKubernetes



請為這篇文章評分?