Python jieba 中文斷詞套件 - 大學生's Blog
文章推薦指數: 80 %
jieba中文斷詞套件. 结巴中文分词. https://github.com/fxsjy/jieba. 交大資管開發的結巴(jieba)斷詞台灣繁體特化版本.
大學生'sBlog
Menu
Home
About
Series
Tags
Archives
RSS
SignIn
程式執行畫面
https://repl.it/join/nwbygksi-wastu01
jieba中文斷詞
jieba文中關鍵字
jieba中文斷詞套件
结巴中文分词
https://github.com/fxsjy/jieba
交大資管開發的結巴(jieba)斷詞台灣繁體特化版本
https://github.com/APCLab/jieba-tw
繁體中文詞典
https://raw.githubusercontent.com/APCLab/jieba-tw/master/jieba/dict.txt
WordCloud文字雲視覺化圖形
線上版文字雲
https://wordcloud.timdream.org/#wikipedia:Cloud
筆記整理
精確模式
句子最精確的切開,文本分析
全模式
句子可以成詞的詞語切出,速度快。
搜索引擎模式
精確模式的基礎上,將長的詞語再切分
importjieba
documents=['我來自台中教育大學','疫情趕快遠離台灣','我想出國旅行']
#精確模式
forsentenceindocuments:
seg_list=jieba.cut(sentence)
print('/'.join(seg_list))
print('---------------')
#全模式
forsentenceindocuments:
seg_list=jieba.cut(sentence,cut_all=True)
print('/'.join(seg_list))
print('---------------')
#搜索引擎模式
forsentenceindocuments:
seg_list=jieba.cut_for_search(sentence)
print('/'.join(seg_list))
自定義詞典
創立user_dict.txt自行增加
文中關鍵字
importjieba.analyse
news='中央流行疫情指揮中心今日宣布,國內新增2例武漢肺炎(新型冠狀病毒病,COVID-19)境外移入,分別為分別自菲律賓及美國入境。
指揮中心發言人莊人祥表示,案549為20多歲菲律賓籍女性,因工作於今年9月30日入境台灣,搭機前3日內檢驗陰性,入境時至集中檢疫期滿均無症狀,10月13日檢疫期滿前採檢結果為陰性,檢疫期滿後由仲介安排至隔離宿舍進行自主健康管理,並於10月22由仲介安排至醫院自費檢驗,於今日確診,目前住院隔離中。
'
tags=jieba.analyse.extract_tags(news,topK=5,withWeight=True)
#引用文字來源:https://news.ltn.com.tw/news/life/breakingnews/3331012
fortagintags:
print('word:',tag[0],'tf-idf:',tag[1])
#程式參考來源:https://blog.kennycoder.io/categories/Python/
#jieba
#Python
#斷詞
#詞頻
#結巴
大學生
Follow
Following
學生@台中教育大學
我是學生啦
Facebook
RelatedPosts
MTR04_0730
cwc329
Gojsonandembeddedstruct
cjwind
Gulp入門
Nicolakacha
Comments
延伸文章資訊
- 1Python - 知名Jieba 中文斷詞工具教學
- 2Python jieba 中文斷詞套件 - 大學生's Blog
jieba中文斷詞套件. 结巴中文分词. https://github.com/fxsjy/jieba. 交大資管開發的結巴(jieba)斷詞台灣繁體特化版本.
- 3中文斷詞 - CKIP Lab 中文詞知識庫小組
中文斷詞. 任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理,例如機器翻譯、語言分析、語言了解、資訊抽取。因此中文自動分詞的工作成了語言處理不可 ...
- 4[Day2] 斷詞介紹 - iT 邦幫忙
[Day2] 斷詞介紹 · 安裝總之呢要先安裝套件,對python熟的人,應該都知道就是這樣安裝: · 載入繁體中文的辭典~這個的位置在Jieba的github有提供,這裡附上網址 · Jieb...
- 5Python – GKIPtagger – 國產斷詞工具
該機構過去也有開發一個舊版本的斷詞工具,不過在這版本之前,該組織都沒有 ... 著實驗的精神來嘗試,如有成果將會分享一篇精準抓取中文文章關鍵字。