python爬取網頁去掉\xa0字元的最簡便方法

2025-01-09

文章推薦指數： 80 %

投票人數：10人

而\xa0 屬於latin1 （ISO/IEC_8859-1）中的擴充套件字符集字元，代表空白符nbsp(non-breaking space)。

latin1 字符集可向下相容ASCII （ 0x20~0x7e ）。

MdEditor python爬取網頁去掉\xa0字元的最簡便方法語言:CN/TW/HK 時間 2021-05-1620:22:58 萬師兄諮詢設計主題: 技術剛學Python爬蟲，以為爬蟲不過就是傳送請求、獲取響應、儲存資料這麼簡單幾個步驟，就可以全部搞定，可是你不試過真是不知道會遇到什麼問題。

比如爬取網頁時，不可避免會遇到\xa0字串，你看著它很彆扭，很想去掉它，可是會你突然發現，你立馬就能想到的方法都不管用，比如正則re.sub(r’\xa0’,‘’)和字串的replace(’\xa0’,‘’)方法都不能去掉它，它紋絲不動。

\xa0是不間斷空白符&nbsp，自己做前端頁面的時候也會經常用到這個符號。

通常我們所用的空格的ASCII碼是\x20，在標準ASCII可見字元0x20~0x7e範圍內。

而\xa0屬於latin1（ISO/IEC_8859-1）中的擴充套件字符集字元，代表空白符nbsp(non-breakingspace)。

latin1字符集可向下相容ASCII（0x20~0x7e）。

雖然爬取到的內容包含\xa0字元內容也不影響實際使用，可誰叫我有點強迫症呢，實在有點追求完美主義，自己就是過去不自己這道坎。

於是在網上找了很多解決方案，感覺方法都還不夠簡練。

比如，有人建議用字串的split()方法先進行分割，再用join()方法進行連線，是可以去掉\xa0字元，可是如果原本字串裡就有空格，想保留的空格也一併去掉了。

所以這個方法不算嚴謹。

還有人建議用ord()+fromkeys()+translate()方法，功能是實現了，可看起來是不是太複雜了，這幾個方法平時都太少用到了。

通過嘗試我發現一個簡單的replace(u’\xa0’,‘’)方法就可以實現了，比如：importres='\xa0/\xa0TheShawshankRedemption's.replace(u'\xa0','')print(s)輸出：/TheShawshankRedemption完美解決。

你試過了，你才會對它理解更透徹。

「技術」伊朗的無人機技術為何發展得這麼快？ 5GRel-15終端特性遺留問題交換機劃分VLAN openwrt一鍵更新所有軟體包 1000多套施工方案、技術交底啥的，中建大公司的，標準權威 Adobe以200億美元收購Figma；HawkeMedia收購營銷技術平臺Morphio 電視解析度超進化，康佳8K技術掀起幾重浪？ Python如何拆分表格？意群門窗被授予CECS《定製門窗工程技術規程》標準參編單位 webdriverAPI詳解一「其他文章」爬蟲界的啟蒙老師，python超爽爬取入門案例分享 Python爬取招聘網站FlaskEcharts展示收入對比專案分享建築標準何其之多，python爬蟲半天全梭 python爬取網頁去掉\xa0字元的最簡便方法推薦一本Python入門書籍和一個學習網站八佰，你準備好了紙巾，可等到的卻只是鬱悶和倒胃綿陽方特東方神話，玩了絕對值回票價，附切身遊玩攻略門外漢，從無知識經驗到一次性通過一級造價工程師考試的經驗分享賣菜都能成為風口，你還在死守工資？何不擁抱趨勢，乘風破浪？邁入IT前端第一步：配好馬，裝好鞍大型網站首頁幻燈片效果實現，至此前端三劍客算是基本入門了六天看完372集Java教程，整個人都通暢了微服務架構設計，程式設計師的升級打怪之路創業之經：書上得來終覺淺，不到樓蘭終不還你這麼努力，是不是仍然被無力、迷茫、猶豫充滿，難以突破現狀？一個博士寫的對聯，水平很高，言辭中肯，卻聲淚俱下最全、白嫖、吐血推薦的27個自學網站！偷偷學習，驚呆所有人過年了，寫一篇用情至深又全是廢話的新年軟文童年的祕密：追本逐源，顛覆認知，也許你才是阻礙孩子發展的障礙你要學程式設計，在邊城當神，在CBD稱帝

請為這篇文章評分？

延伸文章資訊

python去除\ufeff、\xa0、\u3000 - zqifa - 博客园

\xa0 是不间断空白符  我们通常所用的空格是\x20 ，是在标准ASCII可见字符0x20~0x7e 范围内。而\xa0 属于latin1 （ISO ...

python中去掉字符串中的\xa0、\t、\n - 知乎专栏

xa0 是不间断空白符  我们通常所用的空格是\x20 ，是在标准ASCII可见字符0x20~0x7e 范围内。而\xa0 属于latin1 （ISO/IEC_8859-1）中的扩展...

python中去掉字符串中的\xa0、\t、\n - CSDN博客

\xa0 是不间断空白符   我们通常所用的空格是\x20 ，是在标准ASCII可见字符0x20~0x7e 范围内。而\xa0 属于latin1 （ ...

Simple Specials: -XA0 to XA30: Change of Rod End Shape

-XA0 to XA30: Change of Rod End Shape. These changes are dealt with Simple Specials System. Refer...

RX8804CE XA0 Epson Timing - Mouser Electronics

RX8804CE XA0 Epson Timing Epson Electronics America RX8804CE:XA0 REAL TIME CLOCK +/-3.4PPM DTCXO ...

python爬取網頁去掉\xa0字元的最簡便方法

文章推薦指數： 80 %

請為這篇文章評分？

延伸文章資訊

最新文章

相關網站資訊

中日口譯課程

中國生產力中心口譯評價

紙的應用