[語料庫模型] 04-斷詞工具比較Jieba vs CKIP | YR's Blog
文章推薦指數: 80 %
我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配TF-IDF 前,需要先經過適當的斷詞。
中文斷詞領域最常見的兩套工具 ...
0%
我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配TF-IDF前,需要先經過適當的斷詞。
中文斷詞領域最常見的兩套工具就是Jieba(結巴)和CKIP了。
今天主要介紹我選擇CKIP而非Jieba的原因。
Jieba來自中國,而CKIP來自中研院,我們發現同樣的句子,將「長」、「照」判斷為兩個詞,而CKIP則是將「長照」視為一個詞,可能原因是台灣與中國用語不同。
考慮問答集中可能會有較多台灣用語,所以本研究最終選擇使用中研院製作的CKIP。
接著分別以TF-IDF搭配Jieba和CKIP,比較以「長照」為關鍵字搜尋最接近的問句,使用Jieba斷詞的結果,系統找到的是「什麼是定點乾燥?」;使用CKIP斷詞的結果,系統找到的是「長照服務專線」。
很明顯使用CKIP斷詞,系統能找到更貼切的問句。
延伸文章資訊
- 1千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具
中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIP Lab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供 ...
- 2[NLP][Python] 中文斷詞最方便的開源工具之一: Jieba
Jieba 是一款使用Python (或者說在Python 上最知名的?) 的一款開源中文斷詞工具,當然它也有支援許多不同的NLP 任務,比方說POS、關鍵字抽取.
- 3線上中文斷詞工具:Jieba-JS / Online Chinese Analyzer
現在最流行的中文斷詞工具結巴(jieba)原本是以Python開發,必須要有Python的環境才能運作。不過它也有很多不同程式語言的版本,其中最好用的就是不需要安裝、只要瀏覽 ...
- 4[語料庫模型] 04-斷詞工具比較Jieba vs CKIP | YR's Blog
我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具 ...
- 5中文斷詞
目前繁體中文斷詞系統有中研院CKIP 以及jieba,在一些舊的文章中都提到jieba 無法適當地處理繁體中文,而有替換繁體中文字典的改進作法,不過 ...