寫個能幹的中文斷詞系統| PyCon Taiwan 2019
文章推薦指數: 80 %
我們利用語言學的中文句法原則,從零開始打造了一套中文斷詞引擎- 文截斷詞(Articut),而且不只斷 ... 目前主流的中文斷詞演算法皆需要資料集並利用統計和機器學習…
ZH
EN
寫個能幹的中文斷詞系統
R2
Day1,14:50‑15:35
Category:
Science
Language:
Chinesetalkw.Chineseslides
PythonLevel:
Intermediate
Abstract
我們利用語言學的中文句法原則,從零開始打造了一套中文斷詞引擎-文截斷詞(Articut),而且不只斷詞,它還能推理詞性標記。
本演講將分享一點點中文語言學(雖然深度不足以理解程式邏輯)、我們在開發過程中遇到的有趣語料和斷詞結果(可能會有些冷場)以及Python3的Unicode如何省下我們和字串編碼戰鬥的力氣(還有Python3.5的re模組有什麼問題…啊啊,扯遠了)、還有看著Articut犯下和人類孩童一樣的語言錯誤時的感動(底特律變人嗎?)、以不同斷詞引擎處理特殊語料的修羅場(我們對同領域的前輩還是非常尊敬的)以及最後用SIGHAN2005的資料集,和其它文獻中的演算法進行良率競爭的結果。
Description
中文由於文字系統的特性,若要進行有效率的資訊處理,需要先經過斷詞處理以後才能投入後續的應用。
目前主流的中文斷詞演算法皆需要資料集並利用統計和機器學習…等方式進行學習,產生模型以後才能開始使用。
考量收集資料的過程困難且曠日費時(其實是因為懶)以及租用大型主機的成本(其實是因為窮),我們利用語言學的中文句法原則,從零開始打造了一套「不用資料集,也不是基於統計模型」的中文斷詞引擎-文截斷詞(Articut)。
本演講將分享一點點中文語言學(雖然深度不足以理解程式邏輯)、我們在開發過程中遇到的有趣語料和斷詞結果(可能會有些冷場)以及Python3的Unicode如何省下我們和字串編碼戰鬥的力氣(還有Python3.5的re模組是如何地糞作…啊啊,扯遠了)、還有看著Articut犯下和人類孩童一樣的語言錯誤時的感動(底特律變人嗎?)、以不同斷詞引擎處理特殊語料的修羅場(我們對同領域的前輩還是非常尊敬的)以及最後用SIGHAN2005的資料集,和其它文獻中的演算法進行良率競爭的結果。
Slides
https://github.com/Droidtown/PyConTW2019
Speaker
DroidtownLinguisticTech.Co.(卓騰語言科技)創辦人兼核心開發者。
平常開發基於語言學理論的中文斷詞(NLP)、中文語意處理(NLU)、自動語音處理、語音辨識、自然語言文本解析及資料探勘的演算法及前端應用。
是一個覺得流浪很美,卻差一點成為流浪漢的大叔。
延伸文章資訊
- 14. NLP中文斷詞
基於深度學習的算法:雙向LSTM模型. 由於目前主流的中文斷詞「結巴」是基於傳統機器學習算法的斷詞演算法,因此本日課程會著重於介紹此斷詞演算法。
- 2中 文斷詞:斷句句不要悲劇
Jieba 結巴斷詞演算法概觀. Fukuball Lin @ iThome TechTalk. 正規式處理理. 需要斷詞處理理的字串串. Trie 樹比對建立DAG 圖. 統計模型計算最佳切分...
- 3以遺傳演算法為基礎的中文斷詞研究
- 4寫個能幹的中文斷詞系統| PyCon Taiwan 2019
我們利用語言學的中文句法原則,從零開始打造了一套中文斷詞引擎- 文截斷詞(Articut),而且不只斷 ... 目前主流的中文斷詞演算法皆需要資料集並利用統計和機器學習…
- 5Day-07-斷詞 - iT 邦幫忙
jieba 中文斷詞所使用的演算法是基於Trie Tree 結構去生成句子中中文字所有可能成詞的情況,然後使用動態規劃(Dynamic programming)算法來找出最大機率的路徑,這個 ...