python爬取網頁去掉\xa0字元的最簡便方法

文章推薦指數: 80 %
投票人數:10人

而\xa0 屬於latin1 (ISO/IEC_8859-1)中的擴充套件字符集字元,代表空白符nbsp(non-breaking space)。

latin1 字符集可向下相容ASCII ( 0x20~0x7e )。

MdEditor python爬取網頁去掉\xa0字元的最簡便方法 語言:CN/TW/HK 時間 2021-05-1620:22:58 萬師兄諮詢設計 主題: 技術 剛學Python爬蟲,以為爬蟲不過就是傳送請求、獲取響應、儲存資料這麼簡單幾個步驟,就可以全部搞定,可是你不試過真是不知道會遇到什麼問題。

比如爬取網頁時,不可避免會遇到\xa0字串,你看著它很彆扭,很想去掉它,可是會你突然發現,你立馬就能想到的方法都不管用,比如正則re.sub(r’\xa0’,‘’)和字串的replace(’\xa0’,‘’)方法都不能去掉它,它紋絲不動。

\xa0是不間斷空白符&nbsp,自己做前端頁面的時候也會經常用到這個符號。

通常我們所用的空格的ASCII碼是\x20,在標準ASCII可見字元0x20~0x7e範圍內。

而\xa0屬於latin1(ISO/IEC_8859-1)中的擴充套件字符集字元,代表空白符nbsp(non-breakingspace)。

latin1字符集可向下相容ASCII(0x20~0x7e)。

雖然爬取到的內容包含\xa0字元內容也不影響實際使用,可誰叫我有點強迫症呢,實在有點追求完美主義,自己就是過去不自己這道坎。

於是在網上找了很多解決方案,感覺方法都還不夠簡練。

比如,有人建議用字串的split()方法先進行分割,再用join()方法進行連線,是可以去掉\xa0字元,可是如果原本字串裡就有空格,想保留的空格也一併去掉了。

所以這個方法不算嚴謹。

還有人建議用ord()+fromkeys()+translate()方法,功能是實現了,可看起來是不是太複雜了,這幾個方法平時都太少用到了。

通過嘗試我發現一個簡單的replace(u’\xa0’,‘’)方法就可以實現了,比如:importres='\xa0/\xa0TheShawshankRedemption's.replace(u'\xa0','')print(s)輸出:/TheShawshankRedemption完美解決。

你試過了,你才會對它理解更透徹。

「技術」 伊朗的無人機技術為何發展得這麼快? 5GRel-15終端特性遺留問題 交換機劃分VLAN openwrt一鍵更新所有軟體包 1000多套施工方案、技術交底啥的,中建大公司的,標準權威 Adobe以200億美元收購Figma;HawkeMedia收購營銷技術平臺Morphio 電視解析度超進化,康佳8K技術掀起幾重浪? Python如何拆分表格? 意群門窗被授予CECS《定製門窗工程技術規程》標準參編單位 webdriverAPI詳解一 「其他文章」 爬蟲界的啟蒙老師,python超爽爬取入門案例分享 Python爬取招聘網站FlaskEcharts展示收入對比專案分享 建築標準何其之多,python爬蟲半天全梭 python爬取網頁去掉\xa0字元的最簡便方法 推薦一本Python入門書籍和一個學習網站 八佰,你準備好了紙巾,可等到的卻只是鬱悶和倒胃 綿陽方特東方神話,玩了絕對值回票價,附切身遊玩攻略 門外漢,從無知識經驗到一次性通過一級造價工程師考試的經驗分享 賣菜都能成為風口,你還在死守工資?何不擁抱趨勢,乘風破浪? 邁入IT前端第一步:配好馬,裝好鞍 大型網站首頁幻燈片效果實現,至此前端三劍客算是基本入門了 六天看完372集Java教程,整個人都通暢了 微服務架構設計,程式設計師的升級打怪之路 創業之經:書上得來終覺淺,不到樓蘭終不還 你這麼努力,是不是仍然被無力、迷茫、猶豫充滿,難以突破現狀? 一個博士寫的對聯,水平很高,言辭中肯,卻聲淚俱下 最全、白嫖、吐血推薦的27個自學網站!偷偷學習,驚呆所有人 過年了,寫一篇用情至深又全是廢話的新年軟文 童年的祕密:追本逐源,顛覆認知,也許你才是阻礙孩子發展的障礙 你要學程式設計,在邊城當神,在CBD稱帝



請為這篇文章評分?