斷詞系統學習筆記
文章推薦指數: 80 %
CKIP是中研院資訊所開發的斷詞引擎,是第一個具備未知詞偵測與句法詞類預測能力的中文分詞系統。
在繁體中文斷詞具有主導地位。
... CKIP pipline 是一個很 ...
斷詞系統學習筆記
學習三種不同的斷詞系統
斷詞系統學習筆記
June11,2020
PostedBy
李彥瑾
自然語言前處理
,斷詞系統
學習使用斷詞系統
實習期間參與到的是與自然語言處理(NLP)有關的專案。
因一開始的時候先學習使用三個的斷詞引擎,分別為CKIP、Jieba、Stanford。
CKIP
CKIP是中研院資訊所開發的斷詞引擎,是第一個具備未知詞偵測與句法詞類預測能力的中文分詞系統。
在繁體中文斷詞具有主導地位。
Figure1.CKIP斷詞結果
CKIPpipline是一個很豐富的自然語言工具,其功能有斷詞、詞性標註、實體辨識、指代消解、關係抽取、剖析系統(ParsingTree)等功能。
Jieba
Jieba也是一個開源的斷詞系統,其原始碼可以在GitHub找到。
Jieba的優點是速度快,並且替換字典檔容易。
不過字典檔對於Jieba就顯得更為重要,如果遇到沒有在字典檔中的詞,斷詞結果就不會有詞性標註。
下圖紅色框框是詞性標註的欄位
Figure2.Jieba斷詞結果
Stanford
Stanford對於中英文斷詞有各自的套件可以下載。
練習的時候是針對英文文本斷詞。
英文斷詞相對中文來說較為單純,比較不會有歧異字的問題,所以斷詞的結果也比較精確。
Figure3.Stanford英文斷詞結果
在暑假期間嘗試了Stanford的繁體中文斷詞,Stanford可以用自己的語料庫訓練斷詞模型,StanfordCoreNLP也提供多國語言的斷詞功能。
是一個具有彈性的斷詞工具。
下圖是Stanford中文斷詞的結果。
Figure4.Stanford繁體中文斷詞結果
##參考資料
1.[https://ckip.iis.sinica.edu.tw/demo/](https://ckip.iis.sinica.edu.tw/demo/)
2.[https://github.com/GlassyWing/better-jieba](https://github.com/GlassyWing/better-jieba)
3.[https://stanfordnlp.github.io/CoreNLP/download.html](https://stanfordnlp.github.io/CoreNLP/download.html)
LatestPosts
10901實習心得
這個學期是我人生的重要時刻,花費了許多時間去準備研究所的推甄資料和面試的準備,也在這個時間點去台大…
暑期實習心得
自我評估:暑假於中研院持續開發之前的社會網路視覺化軟體,並在其中加入社會網路分析的中心性功能。
為此我…
1082_實習心得
自我評估:這4個月於中研院實習過得很充實,雖然一開始覺得做前端資料視覺化沒有很需技術實力的感覺,也想…
Hugo學習筆記(三)-hostongithub
當網頁都完成後就必須找台serverhost上去,這裡樣補充的使用是githubpage。
以…
Categories
Nlp
Software
實習心得
網頁
Tags
Apachesolr
Cmd
Git
Go
Hugo
Intellij
Markdown
Tomcat
Xampp
前端
實習心得
斷詞系統
自然語言前處理
延伸文章資訊
- 1中文斷詞
目前繁體中文斷詞系統有中研院CKIP 以及jieba,在一些舊的文章中都提到jieba 無法適當地處理繁體中文,而有替換繁體中文字典的改進作法,不過 ...
- 2千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具
中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIP Lab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供原始 ...
- 3中文自動斷詞標記系統 - 中央研究院數位典藏
本系統可以自動抽取新詞建立領域用詞或線上即時分詞功能。為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文斷詞系統。此一系統包含一個約拾萬詞的詞彙庫及附加 ...
- 4繁體中文斷詞使用者字典引用率比較: 結巴(Jieba )與 ...
*4.我所在領域的文本經過人工分段,讓每一段有講述特定主題。 *5.關鍵詞系統是內部用的系統,用來管理領域的關鍵字。 其中測試1、2的流程 ...
- 5中文斷詞:斷句不要悲劇/ Head first Chinese text segmentation
5. 如果我們能夠讓電腦處理好中文斷詞,我們就能夠將斷詞後的結果數值化進行文本分析研究,這樣的自然語言處理過程對問答系統、自動摘要、文件檢索、機器 ...