中文NLP福利!大規模中文自然語言處理語料 - 頭條新聞

文章推薦指數: 80 %
投票人數:10人

本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料, 熱點文章盤點世界十大的火車鐵路事故讀騙|開光、風水,這些“大師”是如何騙錢的?小玉態度:一幅零基礎臨摹習作價格五萬?|張小玉天馬航空402號班機空難之謎“老賴”名下只有一套房怎麼辦?這些情況可以直接“拍賣”!創始人玩失蹤、領導不管事、員工不打卡,卻連續5年營收翻一番為什麼無論人類如何努力,誰也逃不脱《易經》的系統?人販子當眾搶娃,反咬寶媽是人販子,媽媽機智應對值得學習中國樓市,最有想象空間的10大片區(上)網友用竹子自制並繼,這魚竿,用來釣鯽魚手感絕對一流! 中文NLP福利!大規模中文自然語言處理語料 06-19-2021由新智元發表于技術 【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus,初步獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。

眾所周知,中文NLP領域缺乏高質量的中文語料。

作者徐亮(實在智能算法專家)創建了一個中文自然語言處理語料庫項目:nlp_chinese_corpus,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料。

希望大家一起為該項目貢獻語料,感興趣的同學可以直接關注該項目github地址,和作者直接聯繫,點擊文末"閲讀原文"直達github鏈接,可下載相關語料: 大規模中文自然語言處理語料LargeScaleChineseCorpusforNLP https://github.com/brightmart/nlp_chinese_corpus 為中文自然語言處理領域發展貢獻語料 貢獻中文語料,請聯繫:[email protected] 語料庫將會不斷擴充。





一期目標:10個百萬級中文語料&3個千萬級中文語料(2019年5月1號) 二期目標:30個百萬級中文語料&10個千萬級中文語料&1個億級中文語料(2019年12月31日) 為什麼需要這個項目 中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。

在2019年初這個時點上, 普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。

筆者想要訓練一個中文的詞向量, 在百度和github上上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼數據過於成舊,或需要的處理太複雜。

不知道你是否也遇到了這樣的問題? 我們這個項目,就是為了解決這一問題貢獻微薄之力。

維基百科(wiki2019zh)----新聞語料(news2016zh)----百科問答(baike2018qa) 1.維基百科json版(wiki2019zh) 104萬個詞條(1,043,224條;原始文件大小1.6G,壓縮文件519M;數據更新時間:2019.2.7) 點此下載:https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA 可能的用途: 可以做為通用中文語料,做預訓練的語料或構建詞向量,也可以用於構建知識問答。

結構: {"id":,"url":,"title":,"text":}其中,title是詞條的標題,text是正文;通過"\n\n"換行。

例子: {"id":"53","url":"https://zh.wikipedia.org/wiki?curid=53","title":"經濟學","text":"經濟學\n\n經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。

西方語言中的“經濟學”一詞源於古希臘的。

\n\n經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。

在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。

微觀經濟學檢視一個社會裏基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。

而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。

..."} 效果: 經濟學經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。

西方語言中的“經濟學”一詞源於古希臘的。

經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。

在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。

微觀經濟學檢視一個社會裏基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。

而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。

其他的對照還包括了實證經濟學(研究「是什麼」)以及規範經濟學(研究「應該是什麼」)、經濟理論與實用經濟學、行為經濟學與理性選擇經濟學、主流經濟學(研究理性-個體-均衡等)與非主流經濟學(研究體制-歷史-社會結構等)。

經濟學的分析也被用在其他各種領域上,主要領域包括了商業、金融、和政府等,但同時也包括了如健康、犯罪、教育、法律、政治、社會架構、宗教、戰爭、和科學等等。

到了21世紀初,經濟學在社會科學領域各方面不斷擴張影響力,使得有些學者諷刺地稱其為「經濟學帝國主義」。

在現代對於經濟學的定義有數種説法,其中有許多説法因為發展自不同的領域或理論而有截然不同的定義,蘇格蘭哲學家和經濟學家亞當·斯密在1776年將政治經濟學定義為「國民財富的性質和原因的研究」,他説:讓-巴蒂斯特·賽伊在1803年將經濟學從公共政策裏獨立出來,並定義其為對於財富之生產、分配、和消費的學問。

另一方面,托馬斯·卡萊爾則諷刺的稱經濟學為「憂鬱的科學」(Dismalscience),不過這一詞最早是由馬爾薩斯在1798年提出。

約翰·斯圖爾特·密爾在1844年提出了一個以社會科學定義經濟學的角度:..... 2.新聞語料json版(news2016zh) 250萬篇新聞(原始數據9G,壓縮文件3.6G;新聞內容跨度:2014-2016年) 點此下載:https://pan.baidu.com/share/init?surl=LJeq1dkA0wmYd9ZGZw72Xg密碼:film 數據描述 包含了250萬篇新聞。

新聞來源涵蓋了6.3萬個媒體,含標題、關鍵詞、描述、正文。

數據集劃分:數據去重並分成三個部分。

訓練集:243萬;驗證集:7.7萬;測試集,數萬,不提供下載。

可能的用途: 可以做為【通用中文語料】,訓練【詞向量】或做為【預訓練】的語料;也可以用於訓練【標題生成】模型,或訓練【關鍵詞生成】模型(選關鍵詞內容不同於標題的數據);亦可以通過新聞渠道區分出新聞的類型。

結構: {'news_id':,'title':,'content':,'source':,'time':,'keywords':,'desc':,'desc':}其中,title是新聞標題,content是正文,keywords是關鍵詞,desc是描述,source是新聞的來源,time是發佈時間 例子: {"news_id":"610130831","keywords":"導遊,門票","title":"故宮淡季門票40元“黑導遊”賣外地客140元","desc":"近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導遊”,專門向外地遊客出售高價門票。

昨日,記者實地探訪故宮,發現“黑導遊”確實存在。

窗口出售","source":"新華網","time":"03-2212:00","content":"近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導遊”,專門向外地遊客出售高價門票。

昨日,記者實地探訪故宮,發現“黑導遊”確實存在。

窗口出售40元的門票,被“黑導遊”加價出售,最高加到140元。

故宮方面表示,請遊客務必通過正規渠道購買門票,避免上當受騙遭受損失。

目前單筆門票購買流程不過幾秒鐘,耐心排隊購票也不會等待太長時間。

....再反彈”的態勢,打擊黑導遊需要遊客配合,通過正規渠道購買門票。

"} 3.百科類問答json版(baike2018qa) 150萬個問答(原始數據1G多,壓縮文件663M;數據更新時間:2018年) 點此下載:https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA密碼:fu45 數據描述 含有150萬個問題和答案,每個問題屬於一個類別。

總共有492個類別,其中頻率達到或超過10次的類別有434個。

數據集劃分:數據去重並分成三個部分。

訓練集:142.5萬;驗證集:4.5萬;測試集,數萬,不提供下載。

可能的用途: 可以做為通用中文語料,訓練詞向量或做為預訓練的語料;也可以用於構建百科類問答;其中類別信息比較有用,可以用於做監督訓練,從而構建更好句子表示的模型、句子相似性任務等。

結構: {"qid":,"category":,"title":,"desc":,"answer":}其中,category是問題的類型,title是問題的標題,desc是問題的描述,可以為空或與標題內容一致。

例子: {"qid":"qid_2540946131115409959","category":"生活知識","title":"冬天進補好一些呢,還是夏天進步好啊?","desc":"","answer":"你好!\r\r當然是冬天進補好的了,夏天人體的胃處於收縮狀態,不適宜大量的進補,所以我們有時候説:“夏天就要吃些清淡的,就是這個道理的。

”\r\r不過,秋季進補要注意“四忌”一忌多多益善。

任何補藥服用過量都有害。

認為“多吃補藥,有病治病,無病強身”是不的。

過量進補會加重脾胃、肝臟負擔。

在夏季裏,人們由於喝冷飲,常食凍品,多有脾胃功能減弱的現象,這時候如果突然大量進補,會驟然加重脾胃及肝臟的負擔,使長期處於疲弱的消化器官難於承受,導致消化器官功能紊亂。

\r\r二忌以藥代食。

重藥物輕食物的做法是不科學的,許多食物也是好的滋補品。

如多吃薺菜可治療高血壓;多吃蘿蔔可健胃消食,順氣寬胸;多吃山藥能補脾胃。

日常食用的胡桃、芝麻、花生、紅棗、扁豆等也是進補的佳品。

\r\r三忌越貴越好。

每個人的身體狀況不同,因此與之相適應的補品也是不同的。

價格昂貴的補品如燕窩、人蔘之類並非對每個人都適合。

每種進補品都有一定的對象和適應症,應以實用有效為滋補原則,缺啥補啥。

\r\r四忌只補肉類。

秋季適當食用牛羊肉進補效果好。

但經過夏季後,由於脾胃尚未完全恢復到正常功能,因此過於油膩的食品不易消化吸收。

另外,體內過多的脂類、糖類等物質堆積可能誘發心腦血管病。

"} 公開評測: 歡迎報告模型在驗證集上的準確率。

任務1:類別預測。

報告包括:#1)驗證集上準確率;#2)採用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選) 基於#2和#3,我們會在測試集上做測試,並報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。

貢獻語料/Contribution 貢獻中文語料,請發送郵件至[email protected] 為了共同建立一個大規模開放共享的中文語料庫,以促進中文自然語言處理領域的發展,凡提供語料並被採納到該項目中, 除了會列出貢獻者名單(可選)外,我們會根據語料的質量和量級,選出前20個同學,結合您的意願,寄出鍵盤、鼠標、 顯示屏、無線耳機、智能音箱或其他等值的物品,以表示對貢獻者的感謝。

addyourchinesecorpusherebysendingusanemail ifthereisanyissueregardingthedata,youcanalsocontactwithus,wewillprocessit.thankyouforyourunderstanding. Reference 利用Python構建Wiki中文語料詞向量模型試驗 AtoolforextractingplaintextfromWikipediadumps OpenChineseconvert(OpenCC)inpurePython:開放中文轉換 dumpsofwiki,latestinchinese 技術NLP,中文自然語言,社會科學,經濟學,語料庫相關文章香港賽馬會:化賭博為“神奇”06-18-2021該機構既成最大納税大户,又澆灌最大的愛心花園,慈善搭乘蒲公英種子隨風擴散,市民在該機構經營的馬場中,歡樂地運動和玩耍,卻不知翠綠的青草下,暗藏玄機,源源不斷的水流,洶湧澎湃,就在自己腳下!連續10日本地清零!通關有無希望,看未來一週06-18-2021香港新冠肺炎疫情持續平穩,昨日再現「零確診」,是連續10天本地零確診,至今累計維持共11881宗確診個案;同為淪落人,賴清德林佳龍結盟衝2024,黃偉哲為連任也“加盟”?06-18-2021兩件事聯繫在一起,是否意味着在蔡英文面前不受待見的賴清德,為了2024,已悄悄展開“自救”,一方面尋求與同為“天涯淪落人”的林佳龍結盟,另一方面可能已説服黃偉哲“加盟”?美國藉機炒作台灣問題,試圖挑釁大陸底線,動武或許是最優方案?06-18-2021美軍運輸機載着疫苗的允諾和3名“反華”議員抵達松山機場,是赤裸裸地挑釁,他的目的是要借台灣問題加大對中國大陸的阻遏力度。

蔡當局應對疫情能力不足,台灣或將長期受疫情困擾06-18-2021據中評社報道第二波疫情暴發以來,台灣累計確診病例數已經超過一萬三千例,且尚未做普篩檢測。

根據台灣當前的抗疫舉措,缺少疫苗是台灣抗疫面臨的首要問題。

美兩黨議員提“台灣和平與穩定法案”:不改變模糊立場,不支持“台獨”06-18-2021不過提案議員強調,這項與台灣有關的新法案,不主張改變美國長期奉行的“戰略模糊”立場,美國也不應向中國大陸發出支持“台獨”的信號。

蔡英文、蘇貞昌、辜寬敏的家族史,日本後裔與皇民家族攪亂台灣06-18-2021台灣在1895年之後淪為了日本的殖民地,當地的百姓雖然名義上擁有日本的國籍,但是卻長期沒有獲得日本所承認的户籍。

他是台灣竹聯幫大佬,擁有雙碩士學位,為兄弟甘心入獄10年06-18-2021上個世紀,港澳台地區由於政治局勢動盪加上外來人口不斷湧入等原因,造成了各種利益之間的糾葛。

香港地區比較著名的就是14k,和勝和以及新義安等,而台灣地區的黑幫主要以竹聯幫、四海幫以及天道盟為主。

拜登參加3個峯會都打台灣牌,黔驢技窮?美軍判斷武力統一時間06-18-2021就在G7峯會聲明首次提及台海問題之時,美軍“里根”號航母打擊羣進入了敏感海域,配合峯會聲明擺出武力干涉的姿態。

神舟十二號載人飛船成功發射|如何激勵科研人才?個税有話説06-18-20212021年6月17日9時22分,長征二號F遙十二運載火箭託舉着載有聶海勝、劉伯明、湯洪波3名航天員的神舟十二號載人飛船駛向太空。

©頭條新聞服務協議隱私政策聯絡我們DMCA



請為這篇文章評分?