中文NLP福利!大規模中文自然語言處理語料 - 頭條新聞
文章推薦指數: 80 %
本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,
熱點文章盤點世界十大的火車鐵路事故讀騙|開光、風水,這些“大師”是如何騙錢的?小玉態度:一幅零基礎臨摹習作價格五萬?|張小玉天馬航空402號班機空難之謎“老賴”名下只有一套房怎麼辦?這些情況可以直接“拍賣”!創始人玩失蹤、領導不管事、員工不打卡,卻連續5年營收翻一番為什麼無論人類如何努力,誰也逃不脱《易經》的系統?人販子當眾搶娃,反咬寶媽是人販子,媽媽機智應對值得學習中國樓市,最有想象空間的10大片區(上)網友用竹子自制並繼,這魚竿,用來釣鯽魚手感絕對一流!
中文NLP福利!大規模中文自然語言處理語料
06-19-2021由新智元發表于技術
【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus,初步獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
眾所周知,中文NLP領域缺乏高質量的中文語料。
作者徐亮(實在智能算法專家)創建了一個中文自然語言處理語料庫項目:nlp_chinese_corpus,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料。
希望大家一起為該項目貢獻語料,感興趣的同學可以直接關注該項目github地址,和作者直接聯繫,點擊文末"閲讀原文"直達github鏈接,可下載相關語料:
大規模中文自然語言處理語料LargeScaleChineseCorpusforNLP
https://github.com/brightmart/nlp_chinese_corpus
為中文自然語言處理領域發展貢獻語料
貢獻中文語料,請聯繫:[email protected]
語料庫將會不斷擴充。
。
。
一期目標:10個百萬級中文語料&3個千萬級中文語料(2019年5月1號)
二期目標:30個百萬級中文語料&10個千萬級中文語料&1個億級中文語料(2019年12月31日)
為什麼需要這個項目
中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。
在2019年初這個時點上,
普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。
筆者想要訓練一個中文的詞向量,
在百度和github上上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼數據過於成舊,或需要的處理太複雜。
不知道你是否也遇到了這樣的問題?
我們這個項目,就是為了解決這一問題貢獻微薄之力。
維基百科(wiki2019zh)----新聞語料(news2016zh)----百科問答(baike2018qa)
1.維基百科json版(wiki2019zh)
104萬個詞條(1,043,224條;原始文件大小1.6G,壓縮文件519M;數據更新時間:2019.2.7)
點此下載:https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA
可能的用途:
可以做為通用中文語料,做預訓練的語料或構建詞向量,也可以用於構建知識問答。
結構:
{"id":,"url":,"title":,"text":}其中,title是詞條的標題,text是正文;通過"\n\n"換行。
例子:
{"id":"53","url":"https://zh.wikipedia.org/wiki?curid=53","title":"經濟學","text":"經濟學\n\n經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。
西方語言中的“經濟學”一詞源於古希臘的。
\n\n經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。
在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。
微觀經濟學檢視一個社會裏基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。
而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。
..."}
效果:
經濟學經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。
西方語言中的“經濟學”一詞源於古希臘的。
經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。
在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。
微觀經濟學檢視一個社會裏基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。
而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。
其他的對照還包括了實證經濟學(研究「是什麼」)以及規範經濟學(研究「應該是什麼」)、經濟理論與實用經濟學、行為經濟學與理性選擇經濟學、主流經濟學(研究理性-個體-均衡等)與非主流經濟學(研究體制-歷史-社會結構等)。
經濟學的分析也被用在其他各種領域上,主要領域包括了商業、金融、和政府等,但同時也包括了如健康、犯罪、教育、法律、政治、社會架構、宗教、戰爭、和科學等等。
到了21世紀初,經濟學在社會科學領域各方面不斷擴張影響力,使得有些學者諷刺地稱其為「經濟學帝國主義」。
在現代對於經濟學的定義有數種説法,其中有許多説法因為發展自不同的領域或理論而有截然不同的定義,蘇格蘭哲學家和經濟學家亞當·斯密在1776年將政治經濟學定義為「國民財富的性質和原因的研究」,他説:讓-巴蒂斯特·賽伊在1803年將經濟學從公共政策裏獨立出來,並定義其為對於財富之生產、分配、和消費的學問。
另一方面,托馬斯·卡萊爾則諷刺的稱經濟學為「憂鬱的科學」(Dismalscience),不過這一詞最早是由馬爾薩斯在1798年提出。
約翰·斯圖爾特·密爾在1844年提出了一個以社會科學定義經濟學的角度:.....
2.新聞語料json版(news2016zh)
250萬篇新聞(原始數據9G,壓縮文件3.6G;新聞內容跨度:2014-2016年)
點此下載:https://pan.baidu.com/share/init?surl=LJeq1dkA0wmYd9ZGZw72Xg密碼:film
數據描述
包含了250萬篇新聞。
新聞來源涵蓋了6.3萬個媒體,含標題、關鍵詞、描述、正文。
數據集劃分:數據去重並分成三個部分。
訓練集:243萬;驗證集:7.7萬;測試集,數萬,不提供下載。
可能的用途:
可以做為【通用中文語料】,訓練【詞向量】或做為【預訓練】的語料;也可以用於訓練【標題生成】模型,或訓練【關鍵詞生成】模型(選關鍵詞內容不同於標題的數據);亦可以通過新聞渠道區分出新聞的類型。
結構:
{'news_id':,'title':,'content':,'source':,'time':,'keywords':,'desc':,'desc':}其中,title是新聞標題,content是正文,keywords是關鍵詞,desc是描述,source是新聞的來源,time是發佈時間
例子:
{"news_id":"610130831","keywords":"導遊,門票","title":"故宮淡季門票40元“黑導遊”賣外地客140元","desc":"近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導遊”,專門向外地遊客出售高價門票。
昨日,記者實地探訪故宮,發現“黑導遊”確實存在。
窗口出售","source":"新華網","time":"03-2212:00","content":"近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導遊”,專門向外地遊客出售高價門票。
昨日,記者實地探訪故宮,發現“黑導遊”確實存在。
窗口出售40元的門票,被“黑導遊”加價出售,最高加到140元。
故宮方面表示,請遊客務必通過正規渠道購買門票,避免上當受騙遭受損失。
目前單筆門票購買流程不過幾秒鐘,耐心排隊購票也不會等待太長時間。
....再反彈”的態勢,打擊黑導遊需要遊客配合,通過正規渠道購買門票。
"}
3.百科類問答json版(baike2018qa)
150萬個問答(原始數據1G多,壓縮文件663M;數據更新時間:2018年)
點此下載:https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA密碼:fu45
數據描述
含有150萬個問題和答案,每個問題屬於一個類別。
總共有492個類別,其中頻率達到或超過10次的類別有434個。
數據集劃分:數據去重並分成三個部分。
訓練集:142.5萬;驗證集:4.5萬;測試集,數萬,不提供下載。
可能的用途:
可以做為通用中文語料,訓練詞向量或做為預訓練的語料;也可以用於構建百科類問答;其中類別信息比較有用,可以用於做監督訓練,從而構建更好句子表示的模型、句子相似性任務等。
結構:
{"qid":,"category":,"title":,"desc":,"answer":}其中,category是問題的類型,title是問題的標題,desc是問題的描述,可以為空或與標題內容一致。
例子:
{"qid":"qid_2540946131115409959","category":"生活知識","title":"冬天進補好一些呢,還是夏天進步好啊?","desc":"","answer":"你好!\r\r當然是冬天進補好的了,夏天人體的胃處於收縮狀態,不適宜大量的進補,所以我們有時候説:“夏天就要吃些清淡的,就是這個道理的。
”\r\r不過,秋季進補要注意“四忌”一忌多多益善。
任何補藥服用過量都有害。
認為“多吃補藥,有病治病,無病強身”是不的。
過量進補會加重脾胃、肝臟負擔。
在夏季裏,人們由於喝冷飲,常食凍品,多有脾胃功能減弱的現象,這時候如果突然大量進補,會驟然加重脾胃及肝臟的負擔,使長期處於疲弱的消化器官難於承受,導致消化器官功能紊亂。
\r\r二忌以藥代食。
重藥物輕食物的做法是不科學的,許多食物也是好的滋補品。
如多吃薺菜可治療高血壓;多吃蘿蔔可健胃消食,順氣寬胸;多吃山藥能補脾胃。
日常食用的胡桃、芝麻、花生、紅棗、扁豆等也是進補的佳品。
\r\r三忌越貴越好。
每個人的身體狀況不同,因此與之相適應的補品也是不同的。
價格昂貴的補品如燕窩、人蔘之類並非對每個人都適合。
每種進補品都有一定的對象和適應症,應以實用有效為滋補原則,缺啥補啥。
\r\r四忌只補肉類。
秋季適當食用牛羊肉進補效果好。
但經過夏季後,由於脾胃尚未完全恢復到正常功能,因此過於油膩的食品不易消化吸收。
另外,體內過多的脂類、糖類等物質堆積可能誘發心腦血管病。
"}
公開評測:
歡迎報告模型在驗證集上的準確率。
任務1:類別預測。
報告包括:#1)驗證集上準確率;#2)採用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選)
基於#2和#3,我們會在測試集上做測試,並報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。
貢獻語料/Contribution
貢獻中文語料,請發送郵件至[email protected]
為了共同建立一個大規模開放共享的中文語料庫,以促進中文自然語言處理領域的發展,凡提供語料並被採納到該項目中,
除了會列出貢獻者名單(可選)外,我們會根據語料的質量和量級,選出前20個同學,結合您的意願,寄出鍵盤、鼠標、
顯示屏、無線耳機、智能音箱或其他等值的物品,以表示對貢獻者的感謝。
addyourchinesecorpusherebysendingusanemail
ifthereisanyissueregardingthedata,youcanalsocontactwithus,wewillprocessit.thankyouforyourunderstanding.
Reference
利用Python構建Wiki中文語料詞向量模型試驗
AtoolforextractingplaintextfromWikipediadumps
OpenChineseconvert(OpenCC)inpurePython:開放中文轉換
dumpsofwiki,latestinchinese
技術NLP,中文自然語言,社會科學,經濟學,語料庫相關文章香港賽馬會:化賭博為“神奇”06-18-2021該機構既成最大納税大户,又澆灌最大的愛心花園,慈善搭乘蒲公英種子隨風擴散,市民在該機構經營的馬場中,歡樂地運動和玩耍,卻不知翠綠的青草下,暗藏玄機,源源不斷的水流,洶湧澎湃,就在自己腳下!連續10日本地清零!通關有無希望,看未來一週06-18-2021香港新冠肺炎疫情持續平穩,昨日再現「零確診」,是連續10天本地零確診,至今累計維持共11881宗確診個案;同為淪落人,賴清德林佳龍結盟衝2024,黃偉哲為連任也“加盟”?06-18-2021兩件事聯繫在一起,是否意味着在蔡英文面前不受待見的賴清德,為了2024,已悄悄展開“自救”,一方面尋求與同為“天涯淪落人”的林佳龍結盟,另一方面可能已説服黃偉哲“加盟”?美國藉機炒作台灣問題,試圖挑釁大陸底線,動武或許是最優方案?06-18-2021美軍運輸機載着疫苗的允諾和3名“反華”議員抵達松山機場,是赤裸裸地挑釁,他的目的是要借台灣問題加大對中國大陸的阻遏力度。
蔡當局應對疫情能力不足,台灣或將長期受疫情困擾06-18-2021據中評社報道第二波疫情暴發以來,台灣累計確診病例數已經超過一萬三千例,且尚未做普篩檢測。
根據台灣當前的抗疫舉措,缺少疫苗是台灣抗疫面臨的首要問題。
美兩黨議員提“台灣和平與穩定法案”:不改變模糊立場,不支持“台獨”06-18-2021不過提案議員強調,這項與台灣有關的新法案,不主張改變美國長期奉行的“戰略模糊”立場,美國也不應向中國大陸發出支持“台獨”的信號。
蔡英文、蘇貞昌、辜寬敏的家族史,日本後裔與皇民家族攪亂台灣06-18-2021台灣在1895年之後淪為了日本的殖民地,當地的百姓雖然名義上擁有日本的國籍,但是卻長期沒有獲得日本所承認的户籍。
他是台灣竹聯幫大佬,擁有雙碩士學位,為兄弟甘心入獄10年06-18-2021上個世紀,港澳台地區由於政治局勢動盪加上外來人口不斷湧入等原因,造成了各種利益之間的糾葛。
香港地區比較著名的就是14k,和勝和以及新義安等,而台灣地區的黑幫主要以竹聯幫、四海幫以及天道盟為主。
拜登參加3個峯會都打台灣牌,黔驢技窮?美軍判斷武力統一時間06-18-2021就在G7峯會聲明首次提及台海問題之時,美軍“里根”號航母打擊羣進入了敏感海域,配合峯會聲明擺出武力干涉的姿態。
神舟十二號載人飛船成功發射|如何激勵科研人才?個税有話説06-18-20212021年6月17日9時22分,長征二號F遙十二運載火箭託舉着載有聶海勝、劉伯明、湯洪波3名航天員的神舟十二號載人飛船駛向太空。
©頭條新聞服務協議隱私政策聯絡我們DMCA
延伸文章資訊
- 1中文詞義全文標記語料庫之設計與雛形製作 - ACL Anthology
本文使用『中央研究院現代漢語平衡語料庫』 (Sinica Corpus) [1] 作為語料標的。語料. 中的每個文句都已依詞斷開,並標示詞性。本研究為求表達出文脈結構與前後 ...
- 2語言資料庫 - 謝佳玲老師- 國立臺灣師範大學
「國立政治大學漢語口語語料庫」包含三個語言的口語語料:中文、客語、閩南語。語料庫記錄口語語料,並提供外界作為非營利的研究和教學之用。學生和教師(或其他)經會員 ...
- 3語料庫與華語教學 - 政治大學
使用語料庫來學習中文的. ○ 同義詞 ... 語料庫與語言教學專書(From Corpus to ... 2009 年1月14日韓國大學華語教師研修課程. 語料庫之五大用途. ○ 語言教學.
- 4政治大學中文口語語料庫
NCCU Corpus of Spoken Taiwan Mandarin. 政治大學中文口語語料庫. Home · About the corpus · Corpus data · Stati...
- 5中文NLP福利!大規模中文自然語言處理語料 - 人人焦點
【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料, ...