使用正規表達式re - Python 教學 - STEAM 教育學習網

文章推薦指數: 80 %
投票人數:10人

正規表達式( Regualr expression ) 也可稱為正則表達式或正規表示式,是一個非常強大且實用的字串處理方法,透過正規表達式,就能定義文字規則,接著就能從一段文字裡 ... 使用正規表達式re 正規表達式(Regualrexpression)也可稱為正則表達式或正規表示式,是一個非常強大且實用的字串處理方法,透過正規表達式,就能定義文字規則,接著就能從一段文字裡,找出符合規則的字元,幾乎常見的程式語言,都有支援正規表達式的操作,這篇教學將會介紹Python裡,專門操作正規表達式的標準函式庫re。

本篇使用的Python版本為3.7.12,所有範例可使用GoogleColab實作,不用安裝任何軟體(參考:使用GoogleColab) 正規表達式語法參考 正則表達式是一種輕量型的程式語言,不只是Python的一個套件,正規表達式使用的語法規則大同小異,可以參考下列幾個網站: 正規表示式(維基百科) 正規表達式(MDNWebDocs) 正規表示式RegularExpression(陳鍾誠的網站) re常用方法 下方列出幾種re模組常用的方法(參考Python官方文件:re): 方法 參數 說明 compile() pattern 建立一個正規表達式的規則。

search() pattern,string 尋找第一個匹配的字元,如果沒有匹配,回傳None。

(還可額外設定pos和endpos,預設0,可指定從第幾個開始。

match() pattern,string 從開頭開始,尋找第一個匹配的字元。

fullmatch() pattern,string 回傳整個字串都匹配的結果。

split() pattern,string 使用匹配的字串,將原始字串分割為串列。

findall() pattern,string 找出全部匹配的字串,回傳為一個串列。

finditer() pattern,string 找出全部匹配的字串,回傳為一個迭代器物件。

sub() pattern,repl,string,count 從string找出全部匹配的字串,並使用repl的字串取代,count預設0表示全部取代,設定次數可指定取代的個數。

importre 要使用re必須先importre模組,或使用from的方式,單獨import特定的類型。

importre fromreimportsample compile(pattern) random.compile(pattern)可以建立一個正規表達式的規則,規則建立後,就能使用re的其他方法執行套用這個規則的對象,舉例來說,下方的程式碼執行後,會建立找尋「連續三個數字」的規則,接著使用search的方法,就能找到123這三個字串(下方會介紹跟search相關的方法)。

配對的規則通常會用「r」進行標示,例如r'str'。

importre role=re.compile(r'\d\d\d')#連續三個數字 result=role.search('abc123xyz')#使用search方法,使用建立的規則,搜尋abc123xyz print(result.group())#123 random.compile(pattern)還有第二個參數flags,預設不需要填寫,可以額外設定一些正規表達式的匹配方式,flags有下列幾種參數可供設定: 參數 說明 re.I 忽略字母大小寫。

re.M 匹配「^」和「$」在開頭和結尾時,會增加換行符之前和之後的位置。

re.S 使「.」完全匹配包括換行的任何字元,如果沒有這個標籤,「.」會匹配除了換行符外的任何字元。

re.X 當設定這個標籤時,空白字元被忽略,除非該空白字元在字符類中或在反斜線之後,當一個行內有#不在字符集和轉義序列,那麼它之後的所有字元都是注釋。

re.L 由當前語言區域決定\w,\W,\b,\B和大小寫的匹配(官方不建議使用,因為語言機制在不同作業系統可能會有不同)。

下方的程式碼執行後,會找出HeLlo這個字(不論字母大小寫)。

importre role=re.compile(r'hello',flags=re.I)#匹配hello,不論大小寫 result=role.search('HeLloWorld') print(result.group())#HeLlo 使用compile後,包含search,還有下列幾種常用方法可以使用(用法等同re的其他相關方法): 方法 參數 說明 search() string 尋找第一個匹配的字元,如果沒有匹配,回傳None。

(還可額外設定pos和endpos,預設0,可指定從第幾個開始。

match() string 從開頭開始,尋找第一個匹配的字元。

fullmatch() string 回傳整個字串都匹配的結果。

split() string 使用匹配的字串,將原始字串分割為串列。

findall() string 找出全部匹配的字串,回傳為一個串列。

finditer() string 找出全部匹配的字串,回傳為一個迭代器物件。

sub() repl,string,count 從string找出全部匹配的字串,並使用repl的字串取代,count預設0表示全部取代,設定次數可指定取代的個數。

下方的程式碼執行後,會印出搜尋後匹配的結果。

importre role=re.compile(r'hello',flags=re.I) result_search=role.search('HeLloWorld,Hellooxxo') result_match=role.match('HeLloWorld,Hellooxxo') result_fullmatch1=role.fullmatch('HeLloWorld,Hellooxxo') result_fullmatch2=role.fullmatch('HeLlo') result_split=role.split('HeLloWorld,Hellooxxo') result_findall=role.findall('HeLloWorld,Hellooxxo') result_finditer=role.finditer('HeLloWorld,Hellooxxo') result_sub=role.sub('oxxo','HeLloWorld,Hellooxxo') print(result_search)# print(result_match)# print(result_fullmatch1)#None print(result_fullmatch2)# print(result_split)#['','World,','oxxo'] print(result_findall)#['HeLlo','Hello'] print(list(result_finditer))#[,] print(result_sub)#oxxoWorld,oxxooxxo 進行正規表達式搜尋字串內容後,預設將匹配的資料分成同一組,也可在搜尋時使用「小括號」進行搜尋資料的「分組」,接著使用「group」或「groups」,將匹配到的資料內容取出。

下方的程式碼會分別呈現有分組和沒分組搜尋字串的結果: importre role1=re.compile(r'(hello)(world)',flags=re.I) result_match1=role1.match('HeLloWorld,Hellooxxo') print(result_match1)# print(result_match1.span())#(0,11) print(result_match1.groups())#('HeLlo','World') print(result_match1.group(1))#HeLlo print(result_match1.group(2))#World role2=re.compile(r'hello',flags=re.I) result_match2=role2.match('HeLloWorld,Hellooxxo') print(result_match2.groups())#() print(result_match2.group())#HeLlo print(result_match2.group(1))#發生錯誤nosuchgroup 由於使用group或groups時,如果找不到group會發生錯誤(沒有匹配就沒有group),所以可以先使用if判斷式先行篩選,避免錯誤狀況發生,下方的程式碼執行後,會判斷result是否為None,如果是None就直接印出找不到資料的文字。

importre role=re.compile(r'hello',flags=re.I) result=role.fullmatch('HeLloWorld,Hellooxxo') ifresult==None: print('找不到資料')#沒有匹配就印出找不到資料 else: print(result.group())#有匹配就印出結果 search(pattern,string) re.search(pattern,string)使用後,會尋找第一個匹配的字元,如果沒有匹配,回傳None。

(還可額外設定pos和endpos,預設0,可指定從第幾個開始,相關的操作等同於前一段compile()裡介紹的search()方法。

下方程式碼會使用「忽略大小寫」的匹配方式,搜尋並印出hello字串。

importre text='HeLloworld,hellooxxo' result=re.search(r'hello',text,flags=re.I) print(result)# print(result.group())#HeLlo match(pattern,string) re.match(pattern,string)使用後,會從開頭開始,尋找第一個匹配的字元,相關的操作等同於前一段compile()裡介紹的match()方法。

下方程式碼會使用「忽略大小寫」的匹配方式,搜尋並印出hello字串。

importre text='HeLloworld,hellooxxo' result=re.match(r'hello',text,flags=re.I) print(result)# print(result.group())#HeLlo fullmatch(pattern,string) re.fullmatch(pattern,string)使用後,會回傳整個字串都匹配的結果,相關的操作等同於前一段compile()裡介紹的fullmatch()方法。

下方程式碼會使用「忽略大小寫」的匹配方式,搜尋並印出hello字串。

importre text='HeLloworld,hellooxxo' result=re.fullmatch(r'hello',text,flags=re.I) print(result)#None,因為沒有全部都匹配 tex2='HeLlo' result2=re.fullmatch(r'hello',text2,flags=re.I) print(result2)# print(result2.group())#HeLlo split(pattern,string) re.split(pattern,string)使用後,會使用匹配的字串,將原始字串分割為串列,相關的操作等同於前一段compile()裡介紹的split()方法。

下方程式碼會使用「忽略大小寫」的匹配方式,將字串用hello拆分成串列。

importre text='HeLloworld,hellooxxo' result=re.split(r'hello',text,flags=re.I) print(result)#['','world,','oxxo'] findall(pattern,string) re.findall(pattern,string)使用後,會找出全部匹配的字串,回傳為一個串列,相關的操作等同於前一段compile()裡介紹的findall()方法。

下方程式碼會使用「忽略大小寫」的匹配方式,將搜尋到的hello全部取出變成串列。

importre text='HeLloworld,hellooxxo' result=re.findall(r'hello',text,flags=re.I) print(result)#['HeLlo','hello'] finditer(pattern,string) re.finditer(pattern,string)使用後,會找出全部匹配的字串,回傳為一個迭代器物件,相關的操作等同於前一段compile()裡介紹的finditer()方法。

下方程式碼會使用「忽略大小寫」的匹配方式,將搜尋到的hello全部取出變成迭代器物件。

importre text='HeLloworld,hellooxxo' result=re.finditer(r'hello',text,flags=re.I) foriinresult: print(i) print(i.group()) # #HeLlo # #hello sub(pattern,repl,string,count) re.sub(pattern,repl,string,count)使用後,會找從string找出全部匹配的字串,並使用repl的字串取代,count預設0表示全部取代,設定次數可指定取代的個數,相關的操作等同於前一段compile()裡介紹的sub()方法。

下方程式碼會使用「忽略大小寫」的匹配方式,將搜尋到的hello全部置換成oxxo。

importre text='HeLloworld,hellooxxo' result1=re.sub(r'hello','oxxo',text,flags=re.I) result2=re.sub(r'hello','oxxo',text,count=1,flags=re.I) print(result1)#oxxoworld,oxxooxxo print(result2)#oxxoworld,hellooxxo(count設定1所以只換了一個) 意見回饋 如果有任何建議或問題,可傳送「意見表單」給我,謝謝~ Python教學 基本介紹 Python學習導讀 關於Python 使用GoogleColab 使用Anaconda 使用Python虛擬環境 資料型別 變數variable 變數(全域、區域) 數字number 文字與字串string 文字與字串(常用方法) 文字與字串(格式化) 串列list 串列(常用方法) 元組/數組tuple 字典dictionary 集合set 語法觀念 縮排和註解 運算子operator 邏輯判斷(if、elif、else) 邏輯判斷(and和or) 重複迴圈(for、while) 例外處理(try、except) 生成式comprehension 物件類別class 物件繼承inheritance 匯入模組import 函式操作 函式function 匿名函式lambda 遞迴recursion 產生器generator 裝飾器decorator 閉包closure 內建函式/方法 輸入與輸出 數學計算 字串操作與轉換 迭代物件轉換 迭代物件操作 檔案讀寫(open) eval()與exec() 標準函式庫/模組 隨機數random 數學math 數學統計函式statistics 時間與日期datetime 時間處理time 日曆calendar 使用正規表達式re 檔案操作os 查找匹配檔案glob 高階檔案操作shutil 高效迭代器itertools 容器資料型態collections CSV檔案操作 JSON檔案操作 concurrent.futures 網路爬蟲 Python網路爬蟲導讀 關於網路爬蟲 破解反爬蟲的方法 Requests函式庫 BeautifulSoup函式庫 Selenium函式庫 爬取PTT文章標題 自動下載PTT正妹圖片 同時下載多張圖片 爬取空氣品質指標(AQI) 爬取氣象預報 爬取現在天氣 LINENotify雷達回波圖 LINENotify即時地震資訊 爬取臺灣銀行牌告匯率 爬取Yahoo股市即時股價 爬取LINETODAY留言 批次下載Pinterest圖片 登入Mobile01截圖下載 Twitter自動上傳圖文 網頁服務與應用 Flask函式庫 使用ngrok服務 GoogleCloudFunctions 串接Gmail寄送電子郵件 讀取Google試算表 寫入Google試算表 發送LINENotify通知 LINEBOT教學 LINEBOT教學導讀 建立LINEChannel 設定Colab開發環境 建立並串接Webhook 解析LINE的訊息 自動回覆訊息 主動推播訊息 建立圖文選單 切換圖文選單 發送樣板訊息 發送FlexMessage 使用Requests傳送訊息 使用LINEURLScheme 氣象機器人(1) 氣象機器人(2) 氣象機器人(3) 氣象機器人(4) OpenCV教學 OpenCV教學導讀 OpenCV函式庫 開啟並顯示圖片 寫入並儲存圖片 讀取並播放影片 寫入並儲存影片 取得影像資訊 旋轉/翻轉/改變尺寸 影像的幾何變形 影像的色彩轉換 繪製各種形狀 影像加入文字 剪裁影像 調整對比和亮度 負片效果 影像模糊化 影像的疊加與相減 二值化黑白影像 影像的侵蝕與膨脹 影像邊緣偵測 魔術棒填充顏色 影像遮罩 邊緣羽化效果 馬賽克效果 子母畫面影片 萬花筒影片效果 多畫面延遲播放影片 搞笑全景影片合成效果 凸透鏡效果(魚眼效果) 倒數計時自動拍照效果 線性漸層填色 合成半透明圖片 將指定的顏色變透明 處理gif動畫 影片轉透明gif動畫 辨識QRCode和BarCode 掃描QRCode切換效果 偵測滑鼠事件 滑鼠選取自動馬賽克 即時在影片中繪圖 偵測鍵盤行為 加入滑桿(Trackbar) AI影像辨識教學 AI影像辨識教學導讀 OpenCV人臉偵測 OpenCV人臉馬賽克 OpenCV五官偵測 OpenCV汽車偵測 OpenCV行人偵測 OpenCV辨識不同人臉 OpenCV單物件追蹤 OpenCV多物件追蹤 OpenCV抓取特定顏色 OpenCV追蹤並標記顏色 情緒辨識與年齡偵測 辨識微笑,拍照儲存 使用Mediapipe Mediapipe人臉偵測 Mediapipe人臉網格 Mediapipe手掌偵測 Mediapipe姿勢偵測 Mediapipe全身偵測 Mediapipe物體偵測 Mediapipe人物去背 Mediapipe手勢辨識 辨識比中指,自動馬賽克 用手指在影片中畫圖 手指擦除鏡子霧氣效果 即時合成搞笑橘子臉 Jupyter安裝Tensorflow 使用TeachableMachine 辨識剪刀、石頭、布 辨識是否戴口罩 辨識手寫數字 NumPy教學 NumPy教學導讀 NumPy函式庫 資料型態 建立陣列 讀取陣列 迭代陣列 陣列項目賦值 修改陣列形狀 修改陣列項目 填充陣列 分割陣列 合併陣列 陣列排序 廣播 搜尋陣列項目 算數計算 數學函式 隨機數 字串操作處理 matplotlib圖表 matplotlib教學導讀 matplotlib函式庫 Figure和Axes Figure參數設定 建立多個子圖表 設定圖表標籤 設定座標軸位置 設定座標軸刻度文字 資料文字標記 加入顏色對照表 使用極座標系統 使用3D圖表 圖表顯示中文 下載儲存圖表 顯示圖片 製作圖表動畫 (圖表)折線圖 (圖表)散布圖 (圖表)長條圖 (圖表)圓餅圖 (圖表)甜甜圈圖 (圖表)等高線圖 (圖表)階梯折線圖 (圖表)堆疊折線圖 (圖表)堆疊長條圖 (圖表)極座標長條圖 (圖表)極座標散布圖 (圖表)3D柱狀長條圖 (圖表)3D散布圖 Tkinter設計介面 建立Tkinter視窗 Label標籤 Button按鈕 Radiobutton單選按鈕 Checkbutton複選按鈕 Entry單行輸入框 Text多行輸入框 Listbox列表選擇框 Frame框架 Scrollbar滾動條 Photoimage顯示圖片 (範例)Label製作時鐘 (範例)點擊按鈕開檔案 實用範例 定時自動螢幕截圖 LINENotify傳送螢幕截圖 批次重新命名檔案 批次圖片轉檔 批次調整圖片尺寸 調整圖片亮度和對比 裁切與旋轉圖片 拼接多張圖片 圖片加上logo浮水印 圖片加上文字浮水印 圖片馬賽克效果 圖片模糊化 圖片銳利化 讀取與修改圖片Exif 圖片轉文字(OCR) 讀取聲音資訊、輸出聲音 聲音剪輯與串接 聲音音量調整 聲音混合與反轉 改變聲音速度 播放聲音 麥克風錄音 顯示聲波圖形 影片轉檔 取出影片聲音或加入聲音 影片剪輯與合併 影片混合與排列顯示 改變影片尺寸、旋轉翻轉 調整影片速度、倒轉影片 調整影片亮度/對比/顏色 影片轉gif動畫 影片中加入文字 影片自動加上字幕 影片截圖、圖片轉影片 下載Youtube影片 下載Youtube清單影片 產生QRCode 產生BarCode 讀取PDF內容 PDF拆分/合併/插入/刪除 讀取EXCEL內容 寫入資料到EXCEL CSV寫入EXCEL 基礎範例 攝氏/華氏轉換 公分/英吋換算 判斷平年與閏年 找出不重複字元 找出中間的字元 大樂透電腦選號 下載進度條 星號金字塔 數字金字塔 猜數字(猜大猜小) 猜數字(幾A幾B) 簡單時鐘(世界時間) 計算BMI數值 計算年紀(歲、月、天) 產生身分證字號(隨機) 檢查身分證字號 羅馬數字轉換 數學範例 兩個數字的四則運算 計算多個數字的總和 費波那契數列 九九乘法表 質因數分解 快速找出質數 最小公倍數(多個數字) 最大公因數(多個數字) ZeroJudge解答 關於ZeroJudge a001:哈囉 a002:簡易加法 a003:兩光法師占卜術 a004:文文的求婚 a005:Eva的回家作業 a006:一元二次方程式 a009:解碼器 a010:因數分解 a013:羅馬數字 a015:矩陣的翻轉 a017:五則運算 a020:身分證檢驗 a021:大數運算 a022:迴文 a024:最大公因數(GCD) a034:二進位制轉換 a038:數字翻轉 a040:阿姆斯壯數 a042:平面圓形切割 a044:空間切割 a053:Sagit's計分程式 a054:電話客服中心 a058:MOD3 a059:完全平方和 a065:提款卡密碼 a095:麥哲倫的陰謀 a104:排序 a147:Printitall a148:YouCannotPass?! a149:乘乘樂 a215:明明愛數數 a216:數數愛明明 a224:明明愛明明 a225:明明愛排列 a244:新手訓練~for+if a248:新手訓練~陣列應用 a263:日期差幾天 a271:彩色蘿蔔 a291:nAnBproblem a410:解方程 a414:位元運算之進位篇 a417:螺旋矩陣 a524:手機之謎 a528:大數排序 a647:投資專家 a693:吞食天地 a738:最大公約數 a746:畫蛇添足 a799:正值國 a915:二維點排序 b265:Conformity b294:經濟大恐荒 b367:翻轉世界 b374:求眾數 b511:換銅板 b558:求數列第n項 e267:GroupReverse d073:分組報告 d294:算算算Easy d485:我愛偶數 d827:買鉛筆



請為這篇文章評分?