千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具

文章推薦指數: 80 %
投票人數:10人

中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIP Lab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供原始 ... 移至主內容 文/余至浩 | 2019-09-04發表 圖片來源: GitHub 從事中文自然語言處理(NLP)研究的中研院CKIPLab中文詞知識庫小組,近日正式開源釋出了自行研發多年的一套中文斷詞程式,提供給在臺灣從事中文NLP研究的學術圈或開發者來使用,這也意謂著,臺灣終於有了一套國產的自動化中文斷詞工具可以拿來用,而且完全開源,目前已放上GitHub平臺上,開放給大家試用。

中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIPLab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供原始碼,因此,過去使用上一直不如中國開源的中文斷詞工具Jieba(結巴)好用。

不過,這次中研院決定將自己的中文斷詞工具開源釋出,並放上程式代管平臺GitHub,對於臺灣中文NLP研究者或開發者來說,無疑是一大福音。

現在使用者已經可以透過該平臺來安裝使用這個斷詞工具,並可依據自己需求,來修改原始碼,增加更多新功能或特色,用於處理文本、語義分析的使用。

中研院更改了原先的CCBY-SA授權方式,改以更具開源精神的GPL3.0授權釋出,不論是學術研究或其他商業用途,任何人已經皆可自由使用,但必須合乎GPL-3.0的授權規範,倘若希望採用非提供衍生源碼的傳統商業模式,則可採傳統的商業授權。

雖然,中研院開源了自家的中文斷詞程式,不過一開始誤用了較不易散播的創用CCBY-NC-SA4.0(也就是姓名標示、非商用、相同方式分享)方式授權,引起社群熱烈討論,隨後,中研院在今晚(5日)有重新調整更適合的授權,改採用正式GPL-3.0(GNUGeneralPublic License v3.0)釋出,代表不論是學術研究或其他商業用途,任何人已經皆可自由使用、修改、發布該程式源碼,但必須符合GPL-3.0的授權規範,而倘若採用GPL-3.0授權版本做為商業使用,同樣得要套用GPL提供衍生源碼;但若希望採用非提供衍生源碼的傳統商業模式,則可另洽中研院團隊以取得傳統的商業授權。

根據該工具的文件說明,這套CkipTagger中文處理工具,不只提供繁體中文斷詞的功能,也加入詞性標注和18類專有名詞的實體辨識(Namedentityrecognition)等功能,甚至當以多達5萬句的ASBC4.0漢語語料庫測試集,來進行中文斷詞測試時,CkipTagger表現遠高於中國的結巴,中研院在中文斷詞準確度可達到97.49%,相較之下,中國的結巴只有90.51%。

新版本也提供幾大特色,包括了加強斷詞表現、可以不自動刪/改字,並且能夠支援不限長度的句子,另外,新版也加入使用者自訂功能,提供參考/強制詞典的自訂功能。

不只開源中文斷詞程式,我們今年初採訪該詞庫小組計畫負責人馬偉雲時,他也提到,接下來,將用4年的時間,將中文維基百科上的百萬詞彙,自動建立其知識圖譜,來打造成為一個具有百萬中文詞庫的知識庫。

他更計畫以中研院現有9萬詞彙所建立的知識圖譜架構,發展相關的自然語言處理工具,可以自動建立其知識圖譜。

熱門新聞 微軟、AWS向不想回公司上班的特斯拉員工招手 2022-06-06 印度要求VPN業者蒐集用戶資料,ExpressVPN全面移除印度伺服器 2022-06-06 提升開發者帳戶安全,企業應強制全面啟用2FA或建置集中管控 2022-06-06 壽險公會保險存摺正式上線,讓保戶可一站查詢所有人身投保資料 2022-06-01 提升軟體供應鏈安全,提升開發者帳號保護將是不可或缺的關鍵 2022-06-06 Alphabet與Meta的員工年薪中位數都超過29萬美元 2022-06-02 微軟WindowsAutopatch進入公開預覽 2022-06-06 ExchangeServer下一版延到2025年、現有版本同年10月終止支援 2022-06-06 Advertisement 專題報導 【確保軟體供應鏈安全的第一步】快啟用MFA!保護開發者帳號刻不容緩 老牌鋼鐵廠的敏捷舞 6年SRE老手為何仍大當機14天 【從端到端數位化,邁向以顧客體驗為核心】玉山金控金融即服務戰略2.0 解放政府行動力 更多專題報導



請為這篇文章評分?