中文NLP福利!大規模中文自然語言處理語料 - 人人焦點

2025-01-09

文章推薦指數： 80 %

投票人數：10人

【新智元導讀】本文介紹一個中文自然語言處理語料庫項目：nlp_chinese_corpus ，初步貢獻了幾個已經預處理好的中文語料，包括維基、新聞和百科語料， ... 人人焦點影視健康歷史數碼遊戲美食時尚旅遊運動星座情感動漫科學寵物家居文化教育故事中文NLP福利!大規模中文自然語言處理語料 2021-01-19騰訊網新智元推薦來源：AINLP作者：徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目：nlp_chinese_corpus，初步貢獻了幾個已經預處理好的中文語料，包括維基、新聞和百科語料，可直接下載使用。

大規模中文自然語言處理語料LargeScaleChineseCorpusforNLPhttps://github.com/brightmart/nlp_chinese_corpus爲中文自然語言處理領域發展貢獻語料語料庫將會不斷擴充。

。

。

一期目標：10個百萬級中文語料&3個千萬級中文語料(2019年5月1號)二期目標：30個百萬級中文語料&10個千萬級中文語料&1個億級中文語料（2019年12月31日）爲什麼需要這個項目中文的信息無處不在，但如果想要獲得大量的中文語料，卻是不太容易，有時甚至非常困難。

在2019年初這個時點上，普通的從業者、研究人員或學生，並沒有一個比較好的渠道獲得極大量的中文語料。

筆者想要訓練一個中文的詞向量，在百度和github上上搜索了好久，收穫卻很少：要麼語料的量級太小，要麼數據過於成舊，或需要的處理太複雜。

不知道你是否也遇到了這樣的問題？我們這個項目，就是爲了解決這一問題貢獻微薄之力。

維基百科(wiki2019zh)----新聞語料(news2016zh)----百科問答(baike2018qa)1.維基百科json版(wiki2019zh)104萬個詞條(1,043,224條;原始文件大小1.6G，壓縮文件519M；數據更新時間：2019.2.7)點此下載：https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA可能的用途：結構：例子：效果：2.新聞語料json版(news2016zh)250萬篇新聞(原始數據9G，壓縮文件3.6G；新聞內容跨度：2014-2016年)點此下載：https://pan.baidu.com/share/init?surl=LJeq1dkA0wmYd9ZGZw72Xg密碼:film數據描述包含了250萬篇新聞。

新聞來源涵蓋了6.3萬個媒體，含標題、關鍵詞、描述、正文。

數據集劃分：數據去重並分成三個部分。

訓練集：243萬；驗證集：7.7萬；測試集，數萬，不提供下載。

可能的用途：結構：例子：3.百科類問答json版(baike2018qa)150萬個問答(原始數據1G多，壓縮文件663M；數據更新時間：2018年)點此下載：https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA密碼:fu45數據描述含有150萬個問題和答案，每個問題屬於一個類別。

總共有492個類別，其中頻率達到或超過10次的類別有434個。

數據集劃分：數據去重並分成三個部分。

訓練集：142.5萬；驗證集：4.5萬；測試集，數萬，不提供下載。

可能的用途：結構：例子：公開評測：歡迎報告模型在驗證集上的準確率。

任務1：類別預測。

報告包括：#1）驗證集上準確率；#2）採用的模型、方法描述、運行方式，1頁PDF；#3）可運行的原始碼(可選)基於#2和#3，我們會在測試集上做測試，並報告測試集上的準確率；只提供了#1和#2的隊伍，驗證集上的成績依然可以被顯示出來，但會被標記爲未驗證。

貢獻語料/Contribution爲了共同建立一個大規模開放共享的中文語料庫，以促進中文自然語言處理領域的發展，凡提供語料並被採納到該項目中，除了會列出貢獻者名單（可選）外，我們會根據語料的質量和量級，選出前20個同學，結合您的意願，寄出鍵盤、滑鼠、顯示屏、無線耳機、智能音箱或其他等值的物品，以表示對貢獻者的感謝。

addyourchinesecorpusherebysendingusanemailifthereisanyissueregardingthedata,youcanalsocontactwithus,wewillprocessit.thankyouforyourunderstanding.Reference利用Python構建Wiki中文語料詞向量模型試驗AtoolforextractingplaintextfromWikipediadumpsOpenChineseconvert(OpenCC)inpurePython:開放中文轉換dumpsofwiki,latestinchinese 相關焦點國內自然語言處理(NLP)研究組 Lab）ByteDanceAILablab.toutiao.com中科院計算所自然語言處理研究組歡迎來到中科院計算所自然語言處理組網站nlp.ict.ac.cn中科院自動化研究所語音語言技術研究組中文信息處理組nlpr-web.ia.ac.cn中國科學院軟體研究所中文信息處理實驗室中科院軟體所中文信息處理實驗室www.icip.org.cn 2019自然語言處理前沿論壇五大議題全面解析NLP技術前沿 5月26日，由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。

本屆論壇主題爲「機器之『讀、寫、說、譯』——探尋NLP未來之路」。

論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題，與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。

重磅發布|牛津大學DeepNLP深度自然語言處理課程17年最新(漢化視頻) 大數據文摘作品，轉載要求見文末大數據文摘重磅推出牛津大學深度學習與自然語言處理課程（DeepNLP）漢化視頻！大數據文摘視頻團隊在今年又獲得重磅資源，牛津大學深度學習與自然語言處理課程（DeepNLP）！大數據文摘已聯繫課程主講人取得翻譯授權，並聯合北京郵電大學模式識別實驗室組織了視頻漢化，免費發布。

所以大家可以看到中文字幕了！開不開心！斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言新智元報導來源：stanfordnlp.github.io編輯：肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP，通過Python接口爲53種語言提供標記、依存句法分析等NLP任務的重要工具專欄|中文NLP難於英文?從語言學角度看中文NLP、NLU難在哪裡作者：竹間智能自然語言與深度學習小組長期以來，中文自然語言處理（NLP）的研究遭遇瓶頸，其中一個重要原因就是中文的語言學基本無法遷移到已有的成熟的深度學習模型中，這也是中文NLP難於英文的重要原因之一。

而竹間智能在自然語言處理的研究中，結合深度學習、語言學和心理學等，通過NLU來彌補傳統中文NLP在語言理解上的不足，取得了不錯的成果。

CCFNLPCC2018自然語言處理與中文計算國際會議 CCF自然語言處理與中文計算國際會議(NLPCC)是由中國計算機學會主辦的中文信息技術專業委員會年度學術會議，是專注於自然語言處理及中文計算領域的國際會議。

去年，第六屆自然語言處理及中文計算大會（NLPCC2017）在大連成功舉辦。

爲此，雷鋒網(公衆號：雷鋒網)AI科技評論曾採訪 CCF中文信息技術專委會主任、微軟亞洲研究院副院長周明博士及CCF中文信息技術專委會祕書長、北京大學趙東岩研究員，了解了中國NLP研究及NLPCC大會的發展歷程及未來規劃。

深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統自然語言是人類知識的抽象濃縮表示，而自然語言理解是人工智慧研究領域中極具挑戰的一個分支。

上次，《自然語言處理在2017年有哪些值得期待的發展？》中，我們已經講到，2016年是深度學習大潮衝擊NLP的一年，通過去年一年的努力，深度學習在NLP領域已經站穩了腳跟。

人工智慧培訓系列:R語言NLP的中文單詞特徵處理1 不過對於中文名義特徵的處理相對比較少。

對於中文處理，可以看成有兩方面內容，一個是中文分詞，另外一個就是把一個文檔中的中文詞語做爲一個個的特徵轉換爲稀舒矩陣處理。

文檔轉換爲多個特徵對應的稀舒矩陣處理請參考R語言NLP的中文單詞特徵處理2第一個中文分詞:中文分詞與英文單詞用空格不太一樣。

2019自然語言處理前沿論壇,百度NLP技術全揭祕雷鋒網AI科技評論按，近日，由百度聯合中國計算機學會中文信息技術專委會、中國中文信息學會青工委舉辦的「2019自然語言處理前沿論壇」上，來自百度和各大高校的嘉賓們分享了關於NLP技術研究的心得體會。

自然語言處理的經驗主義和理性主義傑里內克的這些話，把基於規則的自然語言處理研究貶低到了一無是處的程度，把從事基於規則的自然語言處理研究的人，貶低到了一文不值的程度，對於基於規則的自然語言處理，採取嗤之以鼻的態度。

20世紀60年代到80年代，轉向基於規則的理性主義➡喬姆斯基的形式語言理論20世紀80年代後期，採用經驗主義方法，從大規模真實語料中獲取語言信息➡ IBM公司華生研究中心的語音識別概率模型20世紀90年代後期，概率和數據驅動的方法幾乎成爲自然語言處理標準方法【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載) • DanJurafsky和 ChrisManning：自然語言處理[非常棒的視頻介紹系列]https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269 • 斯坦福CS224d：自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html • Coursera：自然語言處理簡介[由密西根大學提供的NLP 一文讀懂Smartbi的自然語言處理(NLP)技術（NaturalLanguageProcessing，簡稱NLP）就是用計算機來處理、理解以及運用人類語言(如中文、英文等)，它屬於人工智慧的一個分支，是計算機科學與語言學的交叉學科。

02自然語言處理的發展趨勢目前，人們主要通過兩種思路來進行自然語言處理，一種是基於規則的理性主義，另外一種是基於統計的經驗主義。

10大類、142條數據源,中文NLP數據集線上搜索開放中文NLP數據集搜索：https://www.cluebenchmarks.com/dataSet_search.html在學習NLP的這條不歸路上，我們總會發現大多數先進算法與優質示例代碼都是用英文數據集。

而當我們滿懷希望地把模型遷移到中文世界時，缺少公開的優質數據集簡直就是天塹。

中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型而在中文領域，哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文BERT預訓練模型，在多個中文數據集上取得了當前中文預訓練模型的最佳水平，效果甚至超過了原版BERT、ERINE等中文預訓練模型。

基於Transformers的雙向編碼表示（BERT）在多個自然語言處理任務中取得了廣泛的性能提升。

自然語言處理前沿論壇在京召開學者專家共探機器之讀、寫、說、譯 5月26日，由百度與中國計算機學會中文信息技術專委會、中國中文信息學會青工委聯合舉辦的「2019自然語言處理前沿論壇」正式召開。

本屆論壇主題爲「機器之『讀、寫、說、譯』——探尋NLP未來之路」。

「2018年國際自然語言處理及中文計算會議」開始徵文! >學生研討會論文：2018年4月15日（北京時間23：59）雷鋒網AI科技評論按：自然語言處理及中文計算會議（NLPCC，NaturalLanguageProcessingandChineseComputing）由中國計算機學會（CCF）主辦。

簡單有效的多標準中文分詞論文：https://arxiv.org/abs/1712.02856；代碼和語料：https://github.com/hankcs/multi-criteria-cws。

自然語言處理，特別是中文處理中，語料庫往往珍稀且珍貴。

具體到中文分詞，也是如此。

爲了做出一個實用的系統，不光需要高效的算法，大規模語料庫也必不可少。

最大熵方法及其在自然語言處理中的應用研究要想切實的減少人機交流過程中的阻礙，需要在編製程中加強計算機設備對於自然語言的多重性領會，可以領悟到自然語言本身所具有的思想意識。

上述兩種階段，前一種被稱作是自然語言理解，後一種責備稱作爲自然語言生成。

自然語言的處理總體上包含著自然語言的領會以及語言意識生成兩種環節，在過去的幾年中，研究人員對於自然語言的研究頻率較爲廣泛，但是自然語言的生成探索程度較爲薄弱，此種情況正在隨著探究而發生轉變。

人工智慧難點之——自然語言處理(NLP) （人工智慧主要包含以下幾個方面：自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學）自然語言處理（NLP）是資訊時代最重要的技術之一。

理解複雜的語言也是人工智慧的重要組成部分。

NLP的應用無處不在，因爲人們用語言進行大部分溝通：網絡搜索，廣告，電子郵件，客戶服務，語言翻譯，發布學報告等等。

CSSML(中文語音合成標記語言)的發展與應用 CSSML（中文語音合成標記語言）的發展與應用2003/12/17　　近年來，隨著中文語音技術的迅速發展和應用的逐步深入，語音產業的廣闊市場及其所凸現的強大的產業帶動效應已經初步顯示出來　　CSSML（ChineseSpeechSynthesisMarkupLanguage），即中文語音合成標記語言，正是在上述背景下由科大訊飛起草，經歷數次中文語音技術標準研討會討論後形成的。

　　CSSML標記語言針對中文合成領域內的特殊要求，對W3C定義的SSML規範中的標記進行擴展，並與SSML完全兼容。