python 爬蟲爬取內容時, \xa0 、 \u3000 的含義與處理方法

文章推薦指數: 80 %
投票人數:10人

python爬蟲爬取內容時,\xa0、\u3000的含義轉自:https://www.cnblogs.com/BlackStorm/p/6359005.html處理方法str.replace(u'\xa... 首頁 Python程式庫趨勢 Python程式庫 Python技術部落格 python爬蟲爬取內容時,\xa0、\u3000的含義與處理方法 Python python爬蟲爬取內容時,\xa0、\u3000的含義 轉自:https://www.cnblogs.com/BlackStorm/p/6359005.html 處理方法str.replace(u'\xa0',u'') 最近用scrapy爬某網站,發現拿到的內容裡面含有\xa0、\u3000這樣的字元,起初還以為是編碼不對,搜了一下才知道是見識太少233。

\xa0是不間斷空白符   我們通常所用的空格是\x20,是在標準ASCII可見字元0x20~0x7e範圍內。

而\xa0屬於latin1(ISO/IEC_8859-1)中的擴充套件字符集字元,代表空白符nbsp(non-breakingspace)。

latin1字符集向下相容ASCII(0x20~0x7e)。

通常我們見到的字元多數是latin1的,比如在MySQL資料庫中。

這裡也有一張簡陋的Latin1字符集對照表。

\u3000是全形的空白符 根據Unicode編碼標準及其基本多語言面的定義,\u3000屬於CJK字元的CJK標點符號區塊內,是空白字元之一。

它的名字是IdeographicSpace,有人譯作表意字空格、象形字空格等。

顧名思義,就是全形的CJK空格。

它跟nbsp不一樣,是可以被換行間斷的。

常用於製造縮排,wiki還說用於抬頭,但沒見過。

這裡還有一個Unicode.org上關於CJK標點符號塊的字元程式碼表。

轉自https://www.cnblogs.com/my8100/p/7709371.html HTML跳脫字元&npsp;表示non-breakingspace,unicode編碼為u'\xa0',超出gbk編碼範圍? 0.目錄 1.參考2.問題定位不間斷空格的unicode表示為u\xa0',超出gbk編碼範圍?3.如何處理.extract_first().replace(u'\xa0',u'').strip().encode('utf-8','replace')   1.參考 BeautifulSoupandUnicodeProblems 詳細解釋 unicodedata.normalize('NFKD',string) 實際作用???   Scrapy:Selecttagwithnon-breakingspacewithxpath >>>selector.xpath(u''' ...//p[normalize-space()] ...[not(contains(normalize-space(),"\u00a0"))] normalize-space()實際作用???   In[244]:sel.css('.content') Out[244]:[



請為這篇文章評分?