斷詞系統學習筆記

文章推薦指數: 80 %
投票人數:10人

CKIP是中研院資訊所開發的斷詞引擎,是第一個具備未知詞偵測與句法詞類預測能力的中文分詞系統。

在繁體中文斷詞具有主導地位。

... CKIP pipline 是一個很 ... 斷詞系統學習筆記 學習三種不同的斷詞系統 斷詞系統學習筆記 June11,2020 PostedBy 李彥瑾 自然語言前處理 ,斷詞系統 學習使用斷詞系統 實習期間參與到的是與自然語言處理(NLP)有關的專案。

因一開始的時候先學習使用三個的斷詞引擎,分別為CKIP、Jieba、Stanford。

CKIP CKIP是中研院資訊所開發的斷詞引擎,是第一個具備未知詞偵測與句法詞類預測能力的中文分詞系統。

在繁體中文斷詞具有主導地位。

Figure1.CKIP斷詞結果 CKIPpipline是一個很豐富的自然語言工具,其功能有斷詞、詞性標註、實體辨識、指代消解、關係抽取、剖析系統(ParsingTree)等功能。

Jieba Jieba也是一個開源的斷詞系統,其原始碼可以在GitHub找到。

Jieba的優點是速度快,並且替換字典檔容易。

不過字典檔對於Jieba就顯得更為重要,如果遇到沒有在字典檔中的詞,斷詞結果就不會有詞性標註。

下圖紅色框框是詞性標註的欄位 Figure2.Jieba斷詞結果 Stanford Stanford對於中英文斷詞有各自的套件可以下載。

練習的時候是針對英文文本斷詞。

英文斷詞相對中文來說較為單純,比較不會有歧異字的問題,所以斷詞的結果也比較精確。

Figure3.Stanford英文斷詞結果 在暑假期間嘗試了Stanford的繁體中文斷詞,Stanford可以用自己的語料庫訓練斷詞模型,StanfordCoreNLP也提供多國語言的斷詞功能。

是一個具有彈性的斷詞工具。

下圖是Stanford中文斷詞的結果。

Figure4.Stanford繁體中文斷詞結果 ##參考資料 1.[https://ckip.iis.sinica.edu.tw/demo/](https://ckip.iis.sinica.edu.tw/demo/) 2.[https://github.com/GlassyWing/better-jieba](https://github.com/GlassyWing/better-jieba) 3.[https://stanfordnlp.github.io/CoreNLP/download.html](https://stanfordnlp.github.io/CoreNLP/download.html) LatestPosts 10901實習心得 這個學期是我人生的重要時刻,花費了許多時間去準備研究所的推甄資料和面試的準備,也在這個時間點去台大… 暑期實習心得 自我評估:暑假於中研院持續開發之前的社會網路視覺化軟體,並在其中加入社會網路分析的中心性功能。

為此我… 1082_實習心得 自我評估:這4個月於中研院實習過得很充實,雖然一開始覺得做前端資料視覺化沒有很需技術實力的感覺,也想… Hugo學習筆記(三)-hostongithub 當網頁都完成後就必須找台serverhost上去,這裡樣補充的使用是githubpage。

以… Categories Nlp Software 實習心得 網頁 Tags Apachesolr Cmd Git Go Hugo Intellij Markdown Tomcat Xampp 前端 實習心得 斷詞系統 自然語言前處理



請為這篇文章評分?