python 爬蟲爬取內容時, \xa0 、 \u3000 的含義與處理方法
文章推薦指數: 80 %
python爬蟲爬取內容時,\xa0、\u3000的含義轉自:https://www.cnblogs.com/BlackStorm/p/6359005.html處理方法str.replace(u'\xa...
首頁
Python程式庫趨勢
Python程式庫
Python技術部落格
python爬蟲爬取內容時,\xa0、\u3000的含義與處理方法
Python
python爬蟲爬取內容時,\xa0、\u3000的含義
轉自:https://www.cnblogs.com/BlackStorm/p/6359005.html
處理方法str.replace(u'\xa0',u'')
最近用scrapy爬某網站,發現拿到的內容裡面含有\xa0、\u3000這樣的字元,起初還以為是編碼不對,搜了一下才知道是見識太少233。
\xa0是不間斷空白符
我們通常所用的空格是\x20,是在標準ASCII可見字元0x20~0x7e範圍內。
而\xa0屬於latin1(ISO/IEC_8859-1)中的擴充套件字符集字元,代表空白符nbsp(non-breakingspace)。
latin1字符集向下相容ASCII(0x20~0x7e)。
通常我們見到的字元多數是latin1的,比如在MySQL資料庫中。
這裡也有一張簡陋的Latin1字符集對照表。
\u3000是全形的空白符
根據Unicode編碼標準及其基本多語言面的定義,\u3000屬於CJK字元的CJK標點符號區塊內,是空白字元之一。
它的名字是IdeographicSpace,有人譯作表意字空格、象形字空格等。
顧名思義,就是全形的CJK空格。
它跟nbsp不一樣,是可以被換行間斷的。
常用於製造縮排,wiki還說用於抬頭,但沒見過。
這裡還有一個Unicode.org上關於CJK標點符號塊的字元程式碼表。
轉自https://www.cnblogs.com/my8100/p/7709371.html
HTML跳脫字元&npsp;表示non-breakingspace,unicode編碼為u'\xa0',超出gbk編碼範圍?
0.目錄
1.參考2.問題定位不間斷空格的unicode表示為u\xa0',超出gbk編碼範圍?3.如何處理.extract_first().replace(u'\xa0',u'').strip().encode('utf-8','replace')
1.參考
BeautifulSoupandUnicodeProblems
詳細解釋
unicodedata.normalize('NFKD',string) 實際作用???
Scrapy:Selecttagwithnon-breakingspacewithxpath
>>>selector.xpath(u'''
...//p[normalize-space()]
...[not(contains(normalize-space(),"\u00a0"))]
normalize-space()實際作用???
In[244]:sel.css('.content')
Out[244]:[
延伸文章資訊
- 1python去除\ufeff、\xa0、\u3000 - 碼上快樂
今天使用python處理一個txt文件的時候,遇到幾個特殊字符:\ufeff、\xa0、\u3000,記錄一下處理方法. 代碼: with open(file_path, mode='r') a...
- 2python3: how to convert "\u3000" (ideographic space) to " "?
hello ['あかさ', 'あいうえ お', 'いい']!. How can I achieve this? python-3.x · python-unicode.
- 3python去除\ufeff、\xa0、\u3000 - zqifa - 博客园
今天使用python处理一个txt文件的时候,遇到几个特殊字符:\ufeff、\xa0、\u3000,记录一下处理方法代码:with open(file_path, mode='r'
- 4python去除\u3000,空格,\n等 - CSDN博客
python去除\u3000,空格,\n等. Gabriel_wei 于 2021-06-29 15:13:43 发布 2569 收藏 11. 分类专栏: python 文章标签: python...
- 5python 爬虫爬取内容时, \xa0 、 \u3000 的含义 - 博客园
最近用scrapy 爬某网站,发现拿到的内容里面含有\xa0 、 \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233 。