python爬取網頁去掉\xa0字元的最簡便方法
文章推薦指數: 80 %
而\xa0 屬於latin1 (ISO/IEC_8859-1)中的擴充套件字符集字元,代表空白符nbsp(non-breaking space)。
latin1 字符集可向下相容ASCII ( 0x20~0x7e )。
MdEditor
python爬取網頁去掉\xa0字元的最簡便方法
語言:CN/TW/HK
時間 2021-05-1620:22:58
萬師兄諮詢設計
主題:
技術
剛學Python爬蟲,以為爬蟲不過就是傳送請求、獲取響應、儲存資料這麼簡單幾個步驟,就可以全部搞定,可是你不試過真是不知道會遇到什麼問題。
比如爬取網頁時,不可避免會遇到\xa0字串,你看著它很彆扭,很想去掉它,可是會你突然發現,你立馬就能想到的方法都不管用,比如正則re.sub(r’\xa0’,‘’)和字串的replace(’\xa0’,‘’)方法都不能去掉它,它紋絲不動。
\xa0是不間斷空白符 ,自己做前端頁面的時候也會經常用到這個符號。
通常我們所用的空格的ASCII碼是\x20,在標準ASCII可見字元0x20~0x7e範圍內。
而\xa0屬於latin1(ISO/IEC_8859-1)中的擴充套件字符集字元,代表空白符nbsp(non-breakingspace)。
latin1字符集可向下相容ASCII(0x20~0x7e)。
雖然爬取到的內容包含\xa0字元內容也不影響實際使用,可誰叫我有點強迫症呢,實在有點追求完美主義,自己就是過去不自己這道坎。
於是在網上找了很多解決方案,感覺方法都還不夠簡練。
比如,有人建議用字串的split()方法先進行分割,再用join()方法進行連線,是可以去掉\xa0字元,可是如果原本字串裡就有空格,想保留的空格也一併去掉了。
所以這個方法不算嚴謹。
還有人建議用ord()+fromkeys()+translate()方法,功能是實現了,可看起來是不是太複雜了,這幾個方法平時都太少用到了。
通過嘗試我發現一個簡單的replace(u’\xa0’,‘’)方法就可以實現了,比如:importres='\xa0/\xa0TheShawshankRedemption's.replace(u'\xa0','')print(s)輸出:/TheShawshankRedemption完美解決。
你試過了,你才會對它理解更透徹。
「技術」
伊朗的無人機技術為何發展得這麼快?
5GRel-15終端特性遺留問題
交換機劃分VLAN
openwrt一鍵更新所有軟體包
1000多套施工方案、技術交底啥的,中建大公司的,標準權威
Adobe以200億美元收購Figma;HawkeMedia收購營銷技術平臺Morphio
電視解析度超進化,康佳8K技術掀起幾重浪?
Python如何拆分表格?
意群門窗被授予CECS《定製門窗工程技術規程》標準參編單位
webdriverAPI詳解一
「其他文章」
爬蟲界的啟蒙老師,python超爽爬取入門案例分享
Python爬取招聘網站FlaskEcharts展示收入對比專案分享
建築標準何其之多,python爬蟲半天全梭
python爬取網頁去掉\xa0字元的最簡便方法
推薦一本Python入門書籍和一個學習網站
八佰,你準備好了紙巾,可等到的卻只是鬱悶和倒胃
綿陽方特東方神話,玩了絕對值回票價,附切身遊玩攻略
門外漢,從無知識經驗到一次性通過一級造價工程師考試的經驗分享
賣菜都能成為風口,你還在死守工資?何不擁抱趨勢,乘風破浪?
邁入IT前端第一步:配好馬,裝好鞍
大型網站首頁幻燈片效果實現,至此前端三劍客算是基本入門了
六天看完372集Java教程,整個人都通暢了
微服務架構設計,程式設計師的升級打怪之路
創業之經:書上得來終覺淺,不到樓蘭終不還
你這麼努力,是不是仍然被無力、迷茫、猶豫充滿,難以突破現狀?
一個博士寫的對聯,水平很高,言辭中肯,卻聲淚俱下
最全、白嫖、吐血推薦的27個自學網站!偷偷學習,驚呆所有人
過年了,寫一篇用情至深又全是廢話的新年軟文
童年的祕密:追本逐源,顛覆認知,也許你才是阻礙孩子發展的障礙
你要學程式設計,在邊城當神,在CBD稱帝
延伸文章資訊
- 1How to remove \xa0 from string in Python? - Stack Overflow
\xa0 is actually non-breaking space in Latin1 (ISO 8859-1), also chr(160). You should replace it ...
- 2Remove \xa0 from a string in Python | bobbyhadz
The \xa0 character represents non-breaking space, so the way to remove it from a string is to rep...
- 3python中去掉字符串中的\xa0、\t、\n - 知乎专栏
xa0 是不间断空白符 我们通常所用的空格是\x20 ,是在标准ASCII可见字符0x20~0x7e 范围内。 而\xa0 属于latin1 (ISO/IEC_8859-1)中的扩展...
- 4python爬取網頁去掉\xa0字元的最簡便方法
而\xa0 屬於latin1 (ISO/IEC_8859-1)中的擴充套件字符集字元,代表空白符nbsp(non-breaking space)。latin1 字符集可向下相容ASCII ( 0...
- 5python中去掉字符串中的\xa0、\t、\n - CSDN博客
\xa0 是不间断空白符 我们通常所用的空格是\x20 ,是在标准ASCII可见字符0x20~0x7e 范围内。 而\xa0 属于latin1 ( ...