brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 ...
文章推薦指數: 80 %
大规模中文自然语言处理语料Large Scale Chinese Corpus for NLP. ... 语料库将会不断扩充。
... 训练集:243万;验证集:7.7万;测试集,数万,不提供下载。
Skiptocontent
{{message}}
brightmart
/
nlp_chinese_corpus
Public
Notifications
Fork
1.4k
Star
7.1k
大规模中文自然语言处理语料LargeScaleChineseCorpusforNLP
License
MITlicense
7.1k
stars
1.4k
forks
Star
Notifications
Code
Issues
16
Pullrequests
1
Discussions
Actions
Projects
0
Wiki
Security
Insights
More
Code
Issues
Pullrequests
Discussions
Actions
Projects
Wiki
Security
Insights
brightmart/nlp_chinese_corpus
Thiscommitdoesnotbelongtoanybranchonthisrepository,andmaybelongtoaforkoutsideoftherepository.
master
Branches
Tags
Couldnotloadbranches
Nothingtoshow
{{refName}}
default
Couldnotloadtags
Nothingtoshow
{{refName}}
default
1
branch
1
tag
Code
Latestcommit
brightmart
UpdateREADME.md
…
8dc6c44
Jun15,2022
UpdateREADME.md
8dc6c44
Gitstats
65
commits
Files
Permalink
Failedtoloadlatestcommitinformation.
Type
Name
Latestcommitmessage
Committime
resources
update
Feb17,2019
LICENSE
createlicense
Oct23,2019
README.md
UpdateREADME.md
Jun15,2022
Viewcode
为中文自然语言处理领域发展贡献语料
1.维基百科(wiki2019zh),100万个结构良好的中文词条
2.新闻语料(news2016zh),250万篇新闻,含关键词、描述
3.百科问答(baike2018qa),150万个带问题类型的问答
4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
5.翻译语料(translation2019zh),520万个中英文句子对
为什么需要这个项目
1.维基百科json版(wiki2019zh)
104万个词条(1,043,224条;原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7)
可能的用途:
结构:
例子:
效果:
2.新闻语料json版(news2016zh)
250万篇新闻(原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年)
数据描述
可能的用途:
结构:
例子:
3.百科类问答json版(baike2018qa)
150万个问答(原始数据1G多,压缩文件663M;数据更新时间:2018年)
数据描述
可能的用途:
结构:
例子:
公开评测:
4.社区问答json版(webtext2019zh):大规模高质量数据集
410万个问答(过滤后数据3.7G,压缩文件1.7G;数据跨度:2015-2016年)
数据描述
可能的用途:
结构:
例子:
在该数据集上的公开评测和任务:
5.翻译语料(translation2019zh)
520万个中英文平行语料(原始数据1.1G,压缩文件596M)
数据描述
可能的用途:
结构:
例子:
贡献语料/Contribution
项目贡献者或组织清单
引用Citation/HowdoIciteUs?
Reference
README.md
为中文自然语言处理领域发展贡献语料
NLP自动标注工具(提效最多100X)-预约
***update****
中文任务基准测评,10大任务&9个模型一键运行、详细测评:
LanguageUnderstandingEvaluationbenchmarkforChinese(CLUEbenchmark):run10tasks&9baselineswithonelineofcode,performancecomparisionwithdetails.
ReleasingPre-trainedModelofALBERT_Chinese:
Trainingwith30G+RawChineseCorpus,xxlarge,smallversionandmore,TargettomatchStateoftheArtperformanceinChinesewith30%lessparameters,2019-Oct-7,DuringtheNationalDayofChina!
语料库将会不断扩充。
。
。
一期目标:10个百万级中文语料&3个千万级中文语料(2019年5月1号)
二期目标:30个百万级中文语料&10个千万级中文语料&1个亿级中文语料(2019年12月31日)
Update:增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型;添加520万翻译语料(translation2019zh)。
1.维基百科(wiki2019zh),100万个结构良好的中文词条
2.新闻语料(news2016zh),250万篇新闻,含关键词、描述
3.百科问答(baike2018qa),150万个带问题类型的问答
4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
5.翻译语料(translation2019zh),520万个中英文句子对
为什么需要这个项目
中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。
在2019年初这个时点上,
普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。
笔者想要训练一个中文的词向量,
在百度和github上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。
不知道你是否也遇到了这样的问题?
我们这个项目,就是为了解决这一问题贡献微薄之力。
1.维基百科json版(wiki2019zh)
104万个词条(1,043,224条;原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7)
GoogleDrive下载或百度云盘
可能的用途:
可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。
结构:
{"id":
例子:
{"id":"53","url":"https://zh.wikipedia.org/wiki?curid=53","title":"经济学","text":"经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。
西方语言中的“经济学”一词源于古希腊的。
\n\n经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。
在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。
微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。
而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。
..."}
效果:
经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。
西方语言中的“经济学”一词源于古希腊的。
经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。
在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。
微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。
而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。
其他的对照还包括了实证经济学(研究「是什么」)以及规范经济学(研究「应该是什么」)、经济理论与实用经济学、行为经济学与理性选择经济学、主流经济学(研究理性-个体-均衡等)与非主流经济学(研究体制-历史-社会结构等)。
经济学的分析也被用在其他各种领域上,主要领域包括了商业、金融、和政府等,但同时也包括了如健康、犯罪、教育、法律、政治、社会架构、宗教、战争、和科学等等。
到了21世纪初,经济学在社会科学领域各方面不断扩张影响力,使得有些学者讽刺地称其为「经济学帝国主义」。
在现代对于经济学的定义有数种说法,其中有许多说法因为发展自不同的领域或理论而有截然不同的定义,苏格兰哲学家和经济学家亚当·斯密在1776年将政治经济学定义为「国民财富的性质和原因的研究」,他说:
让-巴蒂斯特·赛伊在1803年将经济学从公共政策里独立出来,并定义其为对于财富之生产、分配、和消费的学问。
另一方面,托马斯·卡莱尔则讽刺的称经济学为「忧郁的科学」(Dismalscience),不过这一词最早是由马尔萨斯在1798年提出。
约翰·斯图尔特·密尔在1844年提出了一个以社会科学定义经济学的角度:
.....
2.新闻语料json版(news2016zh)
250万篇新闻(原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年)
GoogleDrive下载或百度云盘下载,密码:k265
数据描述
包含了250万篇新闻。
新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。
数据集划分:数据去重并分成三个部分。
训练集:243万;验证集:7.7万;测试集,数万,不提供下载。
可能的用途:
可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;
也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);
亦可以通过新闻渠道区分出新闻的类型。
结构:
{'news_id':
延伸文章資訊
- 1brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 ...
大规模中文自然语言处理语料Large Scale Chinese Corpus for NLP. ... 语料库将会不断扩充。 ... 训练集:243万;验证集:7.7万;测试集,数万,不提供下载。
- 2中文自然語言處理百萬級語料庫-ChineseSemanticKB免費下載
- 3CORPRO 庫博中文獨立語料庫分析工具- 暫時下載點
CORPRO 庫博中文獨立語料庫分析工具- 暫時下載點. (本網頁僅供數位人文相關課程教學使用,將在課程結束後關閉。) 專題研究計畫Research Projects.
- 4中文自然語言處理百萬級語料庫-ChineseSemanticKB免費下載
中文自然語言處理百萬級語料庫-ChineseSemanticKB免費下載. 2020-08-09 深度學習與NLP. ChineseSemanticKB,chinese semantic kno...
- 5中文情感分析语料库大全-带下载地址 - DataSense
中文的带有情感标注的语料库比较少, 所以我特地整理了一些公开的语料库, 有些怕丢失, 放到了自己的百度网盘里, 有需要的请自行下载。