[語料庫模型] 04-斷詞工具比較Jieba vs CKIP | YR's Blog

文章推薦指數: 80 %
投票人數:10人

我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配TF-IDF 前,需要先經過適當的斷詞。

中文斷詞領域最常見的兩套工具 ... 0% 我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配TF-IDF前,需要先經過適當的斷詞。

中文斷詞領域最常見的兩套工具就是Jieba(結巴)和CKIP了。

今天主要介紹我選擇CKIP而非Jieba的原因。

Jieba來自中國,而CKIP來自中研院,我們發現同樣的句子,將「長」、「照」判斷為兩個詞,而CKIP則是將「長照」視為一個詞,可能原因是台灣與中國用語不同。

考慮問答集中可能會有較多台灣用語,所以本研究最終選擇使用中研院製作的CKIP。

接著分別以TF-IDF搭配Jieba和CKIP,比較以「長照」為關鍵字搜尋最接近的問句,使用Jieba斷詞的結果,系統找到的是「什麼是定點乾燥?」;使用CKIP斷詞的結果,系統找到的是「長照服務專線」。

很明顯使用CKIP斷詞,系統能找到更貼切的問句。



請為這篇文章評分?