Python去除抓取字段中的特殊字符 - 台部落
文章推薦指數: 80 %
import re str =' \n \u3000\u30001912年4月10日,號稱“世界工業史上的奇蹟”的 ... Python處理csv文件CSV(Comma-Separated Values)即逗號分隔值,可以 ...
請輸入正確的登錄賬號或密碼
註冊
忘記密碼
首頁
python
正文
Python去除抓取字段中的特殊字符
原創
Kevin_You_
2018-12-1223:40
一共有四種方法,其中只有第一種需要導入一下importre,其他不需要導入
importre
str='\n\u3000\u30001912年4月10日,號稱“世界工業史上的奇蹟”的豪華客輪泰坦尼克號開始了自己的處女航,從英國的南安普頓出發駛往美國紐約。
富家少女羅絲(凱特•溫絲萊特)與母親及未婚夫卡爾坐上了頭等艙;另一邊,放蕩不羈的少年畫家傑克(萊昂納多·迪卡普里奧)也在碼頭的一場賭博中贏得了下等艙的船票。
\n\n\u3000\u3000羅絲厭倦了上流社會虛僞的生活,不願嫁給卡爾,打算投海自盡,被傑克救起。
很快,美麗活潑的羅絲與英俊開朗的傑克相愛,傑克帶羅絲參加下等艙的舞會、爲她畫像,二人的感情逐漸升溫。
\n\n\u3000\u30001912年4月14日,星期天晚上,一個風平浪靜的夜晚。
泰坦尼克號撞上了冰山,“永不沉沒的”泰坦尼克號面臨沉船的命運,羅絲和傑克剛萌芽的愛情也將經歷生死的考驗。
\n'
##方法一:注意導入importre
#採用的是sub替換
resultStr=re.sub(r'','',re.sub(r'\u3000','',re.sub(r'\n','',str)))
print(resultStr)
##方法二:
#採用的是replace替換
resultStr=str.replace('','').replace('\n','').replace('\u3000','')
print(resultStr)
##方法三:
#採用的是split()直接去除特殊字符
resultStr="".join(str.split())
print(resultStr)
##方法四:
#採用的是translate去除特殊字符,move裏面'\n\u3000'是需要切掉的字符
move=dict.fromkeys((ord(c)forcinu'\n\u3000'))
resultStr=str.translate(move)
print(resultStr)
各位按需索取吧,運行結果:
1912年4月10日,號稱“世界工業史上的奇蹟”的豪華客輪泰坦尼克號開始了自己的處女航,從英國的南安普頓出發駛往美國紐約。
富家少女羅絲(凱特•溫絲萊特)與母親及未婚夫卡爾坐上了頭等艙;另一邊,放蕩不羈的少年畫家傑克(萊昂納多·迪卡普里奧)也在碼頭的一場賭博中贏得了下等艙的船票。
羅絲厭倦了上流社會虛僞的生活,不願嫁給卡爾,打算投海自盡,被傑克救起。
很快,美麗活潑的羅絲與英俊開朗的傑克相愛,傑克帶羅絲參加下等艙的舞會、爲她畫像,二人的感情逐漸升溫。
1912年4月14日,星期天晚上,一個風平浪靜的夜晚。
泰坦尼克號撞上了冰山,“永不沉沒的”泰坦尼克號面臨沉船的命運,羅絲和傑克剛萌芽的愛情也將經歷生死的考驗。
轉載請標註來源:https://blog.csdn.net/you943047219/article/details/84956929
發表評論
登录
所有評論
還沒有人評論,想成為第一個評論的人麼?請在上方評論欄輸入並且點擊發布.
相關文章
亂序拼圖驗證的識別並還原puzzle-captcha(開源)
一、前言
亂序拼圖驗證是一種較少見的驗證碼防禦,市面上更多的是拖動滑塊,被完美攻克的有不少,都在行爲軌跡上下足了功夫,本文不討論軌跡模擬範疇,就只針對拼圖還原進行研究。
找一個市面比較普及的頂像亂序拼圖進行驗證,它號稱的防禦能力4星,
S.F.
2021-12-0100:53:28
【轉載】Python處理csv文件
Python處理csv文件
CSV(Comma-SeparatedValues)即逗號分隔值,可以用Excel打開查看。
由於是純文本,任何編輯器也都可打開。
與Excel文件不同,CSV文件中:
值沒有類型,所有值都是字符串
不能指定字
zqh
2020-07-1814:25:30
Error:fieldlargerthanfieldlimit(131072)解決方法
從csv文件讀取某一列的數據時,報錯顯示:Error:fieldlargerthanfieldlimit(131072)
通過判斷髮現是因爲文件的行數超過csv限制的行數,所以導致結果既無法在控制檯打印,試着轉到df,存成csv文
hammring
2020-07-0812:39:29
啓動Jupyter時,遇到sudo:jupyterhub:commandnotfound問題的解決方案
最近在學習Jupyter,但是我發現啓動不了多用戶的JupyterHub
官網的教程:
sudojupyterhub
直接輸入就會導致這樣子的結果
後面我各種谷歌百度,都好複雜,然後我突然想到,這是沒有Jupyterhub
钢琴线与小刀
2020-07-0812:39:19
Python小記——文件讀寫操作裏read()方法的深究
**
語法
**
格式:read(size)
在read()方法裏,size表示要從文件中讀取的數據長度,如果沒有指定size或者指定爲“None”就表示讀取文件裏的全部數據。
特別需要注意點:
read()的讀取機制因訪問文件
柘月十七
2020-07-0812:33:27
python使用pip指令安裝並引用第三方模塊及注意事項
python裏有內置模塊、自定義模塊還有第三方模塊。
內置模塊就是python自帶的模塊了,我們直接引用就可以了,如:importsys。
自定義模塊就是按照我們編程者的需求以方便編寫程序和維護代碼的一些“.py文件”,簡單地說,
柘月十七
2020-07-0812:33:27
python小記——sys.argv
sys.argv到底是什麼?
sys.argv是運行在黑屏終端運行python文件獲取的參數。
即返回一個包含輸入參數的列表。
話不多說了看下面,反手就是一堆代碼:
importsys
print("list長度:",len(sy
柘月十七
2020-07-0812:33:16
DjangoSignals信號
文章目錄DjangoSignals信號入門connect
DjangoSignals信號
入門
#receiver接收者
defmy_callback(sender,**kwargs):
printsen
冯斯特罗
2020-07-0812:31:35
sorted在python2和3中的區別
文章目錄sorted在python2和3中的區別
sorted在python2和3中的區別
python3中取消了cmp參數
python3中的使用方法如下:
fromfunctoolsimportcmp_to_key
冯斯特罗
2020-07-0812:31:35
python3排序sortsorted
排序穩定性和排序複雜度
排序保證是穩定的。
這意味着當多個記錄具有相同的鍵值時,將保留其原始順序。
>>>data=[('red',1),('blue',1),('red',2),('blue',2)]
>
冯斯特罗
2020-07-0812:31:35
python3super用法2
classMetaCls(type):
def__new__(cls,*args,**kwargs):
print("inMetaCls")
#returnsuper(Meta
冯斯特罗
2020-07-0812:31:35
metaclass和類裝飾器的執行順序
metaclass和類裝飾器的執行順序
先執行decorator,後執行metaclass
程序是從上到下執行,先遇到decorator,後遇到class,創建class調用metaclass.
同理,裝飾器也是先執行上面的
冯斯特罗
2020-07-0812:31:35
弱引用weakref
弱引用weakref
對對象的弱引用不能保證對象存活:當對像的引用只剩弱引用時,garbagecollection可以銷燬引用並將其內存重用於其他內容。
但是,在實際銷燬對象之前,即使沒有強引用,弱引用也一直能返回該對象。
冯斯特罗
2020-07-0812:31:35
python神級數據結構namedtuple
python神級數據結構namedtuple
fromcollectionsimportnamedtuple
以前就知道有這個東西,也知道如何使用,但是沒覺得有什麼實際用處.
上次看框架源碼,無意間看到這個,發現非常好用.
冯斯特罗
2020-07-0812:31:35
python3super用法
python3super用法
標題黨了.
其實我也不確定這是不是python3的用法.
但是,今天工作的時候遇到了不一樣的寫法,試了一下,運行成功.
剛剛在官網找到了一個例子.以後用的更有底氣了.
classC(B):
冯斯特罗
2020-07-0812:31:35
K
Kevin_You_
24小時熱門文章
最新文章
CMake相關問題解決記錄
android:clickable="false"無效問題
Bugly接入流程(微信Tinker熱更新方案)
ReactNative踩坑之旅--運行第一個程序遇到錯誤及解決
解決:NotoolchainsfoundintheNDKtoolchainsfolderforABIwithprefix:mipsel-linux-android
最新評論文章
[2022]TopRatedCheckPoint156-315.80ExamQuestions
QualifiedWritingServiceinAustraliacanallowstudentstoachievebettergrades
Takeassignmenthelpertoresolvethepaperquerieseasily
UpdatedCompTIADA0-001ExamQuestions(2022)
美國黑金效果和其它速效藥的不同之處
MicrosoftDP-500PDFQuestion[2022]-SecretToPassExamInFirstAttempt-[PremiumDumps]
延伸文章資訊
- 1生活中的資料科學:中選會選舉資料庫 - Medium
我們可以使用Series 的文字處理方法 .str.replace('\u3000', ... 我們運用了Python 的pandas 套件將中選會的選舉資料庫2020 第15 任總統(副總統)...
- 2Python去除抓取字段中的特殊字符 - 台部落
import re str =' \n \u3000\u30001912年4月10日,號稱“世界工業史上的奇蹟”的 ... Python處理csv文件CSV(Comma-Separated Va...
- 3python剔除txt中的空格\u3000
python去除\ufeff、\xa0、\u3000 ... Python去除文件中的空格、Tab键和回车 ... python操作txt文件中数据教程[3]-python读取文件夹中所有txt...
- 4Python去除\ufeff、\xa0、\u3000等字符 - iyuluo
在使用Python处理一些txt或者csv文件过程中,在输出的一些结果里面会有一些特殊的字符例如:\ufeff、\xa0、\u3000 简单来说,这三个字符串分别是字节 ...
- 5How to read correctly Japanese characters from a file without ...
I've got the next result in the python prompt for the list. >>> jP ['\ufeffさよなら\u3000夜の教室',]. Is ...