清华刘知远:教你用HowNet在深度学习时代搞事情(附论文 ...

文章推薦指數: 80 %
投票人數:10人

HowNet是董振东先生、董强先生父子毕三十年之功标注的大型语言知识库,主要面向中文(也包括英文)的词汇与概念[1]。

HowNet秉承还原论思想,认为词汇/ ... 腾讯云备案控制台云+社区专栏视频精选问答沙龙云+竞赛团队主页开发者手册腾讯云TI平台TVP实验室搜索搜索关闭创作写文章发视频提问登录注册展开腾讯云·社区登录首页专栏视频精选问答沙龙云+竞赛团队主页开发者手册腾讯云TI平台TVP返回腾讯云官网数据派THU1.2K篇文章清华刘知远:教你用HowNet在深度学习时代搞事情(附论文下载)转到我的清单专栏首页数据派THU清华刘知远:教你用HowNet在深度学习时代搞事情(附论文下载)80分享分享文章到朋友圈分享文章到QQ分享文章到微博复制文章链接到剪贴板海报分享海报分享清华刘知远:教你用HowNet在深度学习时代搞事情(附论文下载)发布于2018-01-2918:50:04阅读2.8K0来源:知乎作者:刘知远本文共3539字,建议阅读11分钟。

本文为大家解读什么是HowNet,并且可以用HowNet在深度学习时代做些什么。

2017年12月底,清华大学张钹院士做了一场题为《AI科学突破的前夜,教授们应当看到什么?》的精彩特邀报告。

他认为,处理知识是人类所擅长的,而处理数据是计算机所擅长的,如果能够将二者结合起来,一定能够构建出比人类更加智能的系统。

因此他提出,AI未来的科学突破是建立一种同时基于知识和数据的AI系统。

我完全赞同张钹老师的学术观点。

最近一年里,我们在这方面也做了一些尝试,将语言知识库HowNet中的义原标注信息融入面向NLP的深度学习模型中,取得了一些有意思的结果,在这里整理与大家分享一下。

什么是HowNetHowNet是董振东先生、董强先生父子毕三十年之功标注的大型语言知识库,主要面向中文(也包括英文)的词汇与概念[1]。

HowNet秉承还原论思想,认为词汇/词义可以用更小的语义单位来描述。

这种语义单位被称为“义原”(Sememe),顾名思义就是原子语义,即最基本的、不宜再分割的最小语义单位。

在不断标注的过程中,HowNet逐渐构建出了一套精细的义原体系(约2000个义原)。

HowNet基于该义原体系累计标注了数十万词汇/词义的语义信息。

例如“顶点”一词在HowNet有两个代表义项,分别标注义原信息如下,其中每个“xx|yy”代表一个义原,“|”左边为英文右边为中文;义原之间还被标注了复杂的语义关系,如host、modifier、belong等,从而能够精确地表示词义的语义信息。

顶点#1 DEF={Boundary|界限:host={entity|实体},modifier={GreaterThanNormal|高于正常:degree={most|最}}} 顶点#2 DEF={location|位置:belong={angular|角},modifier={dot|点}}在NLP领域知识库资源一直扮演着重要角色,在英语世界中最具知名度的是WordNet,采用同义词集(synset)的形式标注词汇/词义的语义知识。

HowNet采取了不同于WordNet的标注思路,可以说是我国学者为NLP做出的最独具特色的杰出贡献。

HowNet在2000年前后引起了国内NLP学术界极大的研究热情,在词汇相似度计算、文本分类、信息检索等方面探索了HowNet的重要应用价值[2,3],与当时国际上对WordNet的应用探索相映成趣。

深度学习时代HowNet有什么用进入深度学习时代,人们发现通过大规模文本数据也能够很好地学习词汇的语义表示。

例如以word2vec[4]为代表的词表示学习方法,用低维(一般数百维)、稠密、实值向量来表示每个词汇/词义的语义信息,又称为分布式表示(distributedrepresentation,或embedding),利用大规模文本中的词汇上下文信息自动学习向量表示。

我们可以用这些向量方便地计算词汇/词义相似度,能够取得比传统基于语言知识库的方法还好的效果。

也正因为如此,近年来无论是HowNet还是WordNet的学术关注度都有显著下降,如以下两图所示。

中国期刊网(CNKI)统计HowNet学术关注度变化趋势SemanticScholar统计WordNet相关论文变化趋势 那么是不是说,深度学习时代以WordNet、HowNet为代表的语言知识库就毫无用处了呢?实际并非如此。

实际上自word2vec刚提出一年后,我们[5]以及ACL2015最佳学生论文[6]等工作,都发现将WordNet知识融入到词表示学习过程中,能够有效提升词表示效果。

虽然目前大部分NLP深度学习模型尚没有为语言知识库留出位置,但正由于深度学习模型data-hungry、black-box等特性,正使其发展遭遇不可突破的瓶颈。

回顾最开始提及的张钹院士的观点,我们坚信AI未来的科学突破是建立一种同时基于知识和数据的AI系统。

看清楚了这个大形势,针对NLP深度学习模型的关键问题就在于,利用什么知识,怎样利用知识。

在自然语言理解方面,HowNet更贴近语言本质特点。

自然语言中的词汇是典型的符号信息,这些符号背后蕴藏丰富的语义信息。

可以说,词汇是最小的语言使用单位,却不是最小的语义单位。

HowNet提出的义原标注体系,正是突破词汇屏障,深入了解词汇背后丰富语义信息的重要通道。

在融入学习模型方面,HowNet具有无可比拟的优势。

在WordNet、同义词词林等知识库中,每个词的词义是通过同义词集(synset)和定义(gloss)来间接体现的,具体每个词义到底什么意义,缺少细粒度的精准刻画,缺少显式定量的信息,无法更好为计算机所用。

而HowNet通过一套统一的义原标注体系,能够直接精准刻画词义的语义信息;而每个义原含义明确固定,可被直接作为语义标签融入机器学习模型。

也许是由于HowNet采用了收费授权的政策,并且主要面向中文世界,近年来HowNet知识库有些淡出人们的视野。

然而,对HowNet逐渐深入理解,以及最近我们在HowNet与深度学习模型融合的成功尝试,让我开始坚信,HowNet语言知识体系与思想必将在深度学习时代大放异彩。

我们的尝试最近我们分别探索了词汇表示学习、新词义原推荐、和词典扩展等任务上,验证了HowNet与深度学习模型融合的有效性融合义原知识的词汇表示学习论文:YilinNiu,RuobingXie,ZhiyuanLiu,MaosongSun.ImprovedWordRepresentationLearningwithSememes.InACL,2017. 下载:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/acl2017_sememe.pdf源码:https://github.com/thunlp/SE-WRL我们考虑将词义的义原知识融入词汇表示学习模型中。

早在2016年,我们组孙茂松教授就开展了这方面研究,相关工作以《借重于人工知识库的词和义项的向量表示:以HowNet为例》为题发表在全国计算语言学会议(CCL2016)和《中文信息学报》上[7]。

这次ACL2017的工作是这方面的进一步尝试。

在该工作中,我们将HowNet的义原标注信息具象化为如下图所示的word-sense-sememe结构。

需要注意的是,为了简化模型,我们没有考虑词义的义原结构信息,即我们将每个词义的义原标注看做一个无序集合。

HowNet义原标注知识的word-sense-sememe结构示意图基于word2vec中的Skip-Gram模型,我们提出了SAT(sememeattentionovertargetmodel)模型。

与Skip-Gram模型只考虑上下文信息相比,SAT模型同时考虑单词的义原信息,使用义原信息辅助模型更好地“理解”单词。

具体做法是,根据上下文单词来对中心词做词义消歧,使用attention机制计算上下文对该单词各个词义(sense)的权重,然后使用senseembedding的加权平均值表示单词向量。

在词语相似度计算和类比推理两个任务上的实验结果表明,将义原信息融入词汇表示学习能够有效提升词向量性能。

SAT(SememeAttentionoverTargetModel)模型示意图基于词汇表示的新词义原推荐 论文:RuobingXie,XingchiYuan,ZhiyuanLiu,MaosongSun.LexicalSememePredictionviaWordEmbeddingsandMatrixFactorization.InIJCAI,2017. 下载:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/ijcai2017_sememe.pdf源码:https://github.com/thunlp/Sememe_prediction 在验证了分布式表示学习与义原知识库之间的互补关系后,我们进一步提出,是否可以利用词汇表示学习模型,对新词进行义原推荐,辅助知识库标注工作。

为了实现义原推荐,我们分别探索了矩阵分解和协同过滤等方法。

矩阵分解方法首先利用大规模文本数据学习单词向量,然后用已有词语的义原标注构建“单词-义原”矩阵,通过矩阵分解建立与单词向量匹配的义原向量。

当给定新词时,利用新词在大规模文本数据得到的单词向量推荐义原信息。

协同过滤方法则利用单词向量自动寻找与给定新词最相似的单词,然后利用这些相似单词的义原进行推荐。

义原推荐的实验结果表明,综合利用矩阵分解和协同过滤两种手段,可以有效进行新词的义原推荐,并在一定程度上能够发现HowNet知识库的标注不一致现象。

该技术将有利于提高HowNet语言知识库的标注效率与质量。

基于词汇表示和义原知识的词典扩展论文:XiangkaiZeng,ChengYang,CunchaoTu,ZhiyuanLiu,MaosongSun.ChineseLIWCLexiconExpansionviaHierarchicalClassificationofWordEmbeddingswithSememeAttention.InAAAI,2018. 下载:http://nlp.csai.tsinghua.edu.cn/~lzy/publications/aaai2018_cliwc.pdf源码:thunlp/Auto_CLIWC 最近,我们又尝试了利用词语表示学习与HowNet知识库进行词典扩展。

词典扩展任务旨在根据词典中的已有词语,自动扩展出更多的相关词语。

该任务可以看做对词语的分类问题。

我们选用在社会学中享有盛名的LIWC词典(LinguisticInquiryandWordCount)中文版来开展研究。

LIWC中文版中每个单词都被标注层次化心理学类别。

我们利用大规模文本数据学习每个词语的分布式向量表示,然后用LIWC词典单词作为训练数据训练分类器,并用HowNet提供的义原标注信息构建sememeattention。

实验表明,义原信息的引入能够显著提升单词的层次分类效果。

基于SememeAttention的词典扩展模型ps.值得一提的是,这三份工作都是本科生(牛艺霖、袁星驰、曾祥楷)为主完成的,模型方案都很简单,但都是第一次投稿就被ACL、IJCAI和AAAI录用,也可以看出国际学术界对于这类技术路线的认可。

未来展望以上介绍的三项工作只是初步验证了深度学习时代HowNet语言知识库在某些任务的重要作用。

孙茂松教授在《借重于人工知识库的词和义项的向量表示:以HowNet为例》[7]结尾对这一技术路线有段精辟的论述:几乎从零开始”(almostfromscratch)是神经网络语言模型所标榜、推崇的一种学习方式,也是其大“秀”自己强大学习能力“肌肉”的一种展示方式。

但是必须清醒地认识到,这种方式并不能包打天下,对某些类型的任务不是“自足”的(如本文的义项向量学习任务),也存在其“阿喀琉斯之踵”(如本文的低频词向量学习任务),再强大的力量也无法自己举起自己,必须借助“外力”才能摆脱其局限性。

而各类人工知识库就是我们必须依赖同时也是可以依赖的“外力”。

一个充分融合了人工知识库(理想状态应该是统筹了多个相关人工知识库,包括语言知识库和世界知识库)的神经网络语言模型能以一种无监督学习的方式坐收基本面上“几乎从零开始”和特定任务上“站在巨人的肩膀上”之利,往往能够避免或者大大缓解新的人工投入,从而取得事半功倍之效。

以HowNet语言知识库为代表的人类知识与以深度学习为代表的数据驱动模型如何深度融合,尚有许多重要的开放问题亟待探索与解答。

我认为以下几个方向深具探索价值:目前的研究工作仍停留在词法层面,对HowNet知识的应用亦非常有限。

如何在以RNN/LSTM为代表的语言模型中有效融合HowNet义原知识库,并在自动问答、机器翻译等应用任务中验证有效性,具有重要的研究价值。

是否需要考虑义原标注的结构信息,也值得探索与思考。

经过几十年的精心标注,HowNet知识库已有相当规模,但面对日新月异的信息时代,对开放域词汇的覆盖度仍存在不足。

需要不断探索更精准的新词义原自动推荐技术,让计算机辅助人类专家进行更及时高效的知识库标注工作。

此外,HowNet义原知识库规模宏大、标注时间跨度长,难免出现标注不一致现象,这将极大影响相关模型的效果,需要探索相关算法,辅助人类专家做好知识库的一致性检测和质量控制。

HowNet知识库的义原体系是专家在不断标注过程中反思总结的结晶。

但义原体系并非一成不变,也不见得完美无瑕。

它应当随时间变化而演化,并随语言理解的深入而扩展。

我们需要探索一种数据驱动与专家驱动相结合的手段,不断优化与扩充义原体系,更好地满足自然语言处理需求。

总之,HowNet知识库是进入深度学习时代后被极度忽视的一片宝藏,它也许会成为解决NLP深度学习模型诸多瓶颈的一把钥匙。

在深度学习时代用HowNet搞事情,广阔天地,大有可为!参考文献1.知网官方介绍。

2.刘群,李素建.基于《知网》的词汇语义相似度计算.中文计算语言学7,no.2(2002):59-76.3.朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算.中文信息学报20,no.1(2006):16-22.4.Mikolov,Tomas,IlyaSutskever,KaiChen,GregS.Corrado,andJeffDean.Distributedrepresentationsofwordsandphrasesandtheircompositionality.InNIPS,pp.3111-3119.2013.5.Chen,Xinxiong,ZhiyuanLiu,andMaosongSun.Aunifiedmodelforwordsenserepresentationanddisambiguation.InEMNLP,pp.1025-1035.2014.6.Rothe,Sascha,andHinrichSchütze.Autoextend:Extendingwordembeddingstoembeddingsforsynsetsandlexemes.InACL,2015.7.孙茂松,陈新雄.借重于人工知识库的词和义项的向量表示:以HowNet为例.中文信息学报30,no.6(2016):1-6.[下载]8.YilinNiu,RuobingXie,ZhiyuanLiu,MaosongSun.ImprovedWordRepresentationLearningwithSememes.InACL,2017.9.RuobingXie,XingchiYuan,ZhiyuanLiu,MaosongSun.LexicalSememePredictionviaWordEmbeddingsandMatrixFactorization.InIJCAI,2017.10.XiangkaiZeng,ChengYang,CunchaoTu,ZhiyuanLiu,MaosongSun.ChineseLIWCLexiconExpansionviaHierarchicalClassificationofWordEmbeddingswithSememeAttention.InAAAI,2018.文章分享自微信公众号:数据派THU复制公众号名称本文参与腾讯云自媒体分享计划,欢迎热爱写作的你一起参与!如有侵权,请联系[email protected]删除。

展开阅读全文AI人工智能深度学习机器学习举报点赞8分享登录后参与评论0条评论专栏|清华大学刘知远:在深度学习时代用HowNet搞事情机器之心NLP泰斗董振东老师与他的知网|纪念昨晚,我们通过中国中文信息学会发布的讣告得知,我国著名中文信息处理专家、《知网》(HowNet)发明人董振东教授,于2019年2月28日凌晨十二时零...AI科技大本营对话清华NLP实验室刘知远:NLP搞事情少不了知识库与图神经网络在这一年中,清华大学副教授刘知远和他所在的清华自然语言处理实验室同样在这个领域做出了很多成果,他们关注如何结合深度神经网络与大型知识库,并期望构建更多鲁棒及可解...zenRRan清华刘知远:知识指导的自然语言处理自然语言处理是实现人工智能、通过图灵测试的关键。

虽然目前深度学习在自然语言处理上取得了巨大的突破,对自然语言的深度理解仍需要复杂知识的支持,来实现从理解字面意思...Datawhale学界|在深度学习时代用HowNet搞事情2017年12月底,清华大学张钹院士做了一场题为《AI科学突破的前夜,教授们应当看到什么?》的精彩特邀报告。

他认为,处理知识是人类所擅长的,而处理数据是...AI科技评论AAAI2020上的NLP有哪些研究风向?距离AAAI2020开幕还有不到一个月的时间,但有些话、有些文章却需要我们注意。

AI科技评论立足基础学科,助力中学科学人才培养——首届犀牛鸟中学科学人才培养计划圆满收官近日,2020年犀牛鸟中学科学人才培养计划评优答辩会在线上举行。

清华大学丘成桐数学科学中心副主任郑绍远教授、腾讯公司副总裁王巨宏出席答辩会并致辞。

同时本次会议...腾讯高校合作孙茂松:深度学习的红利我们享受得差不多了!访谈伊始,孙茂松首先简单概括了一下人工智能近几年的发展状况。

他说道,人工智能这几年的发展,大家接触比较多的是图像方面的成果,包括很多创业公司的人脸识别、刷脸等技...AI科技大本营清华刘云浩花几十个小时,近2万字答人工智能90问Q1:您认为人工智能是否具有向人文领域进军发展的必要?如果文学情感表演已经被取代,这是否意味着人类文明的颠覆?以及如果人工智能已经达到认知智能的阶段,使它能够思...新智元深鉴科技联合创始人汪玉:针对机器视觉的深度学习处理器(附视频、PPT下载)本内容选自清华大学电子系副教授、深鉴科技联合创始人汪玉于2018年4月27日在清华大学主楼接待厅数据科学研究院举办的第二届“大数据在清华”高峰论坛所做题为《针对...数据派THU快别「一句wòcào行天下」,清华开源了个神器专治词穷!鱼羊发自凹非寺 量子位|公众号QbitAI 奈何本人没文化,一句(哔——)行天下。

这位胖友,不知你行走江湖,是否也有过这样的烦恼? 那么这里有个神器...张俊红快别「一句wòcào行天下」,清华搞了个神器专治词穷鱼羊发自凹非寺 量子位|公众号QbitAI 奈何本人没文化,一句(哔——)行天下。

这位胖友,不知你行走江湖,是否也有过这样的烦恼? 那么这里有个神器...量子位复旦教授徐英瑾:人工智能研究为何需要哲学参与?(下)人工智能哲学作为一个行当,在国内基本上是还没有确立起来。

总体来说国外的情况比我们好一点,马马虎虎算一个哲学分支。

腾讯研究院想本科入读人工智能专业,这篇文章送给准备填志愿的你在计算机专业和人工智能日益火爆的当下,很多人对这两个专业又是好奇又是憧憬。

对此,清华大学刘知远教授近日在知乎上分享了一些内容,以帮助考生更加理性地选择专业,希望...机器之心想本科入读人工智能专业,这篇文章送给准备填志愿的你在计算机专业和人工智能日益火爆的当下,很多人对这两个专业又是好奇又是憧憬。

对此,清华大学刘知远教授近日在知乎上分享了一些内容,以帮助考生更加理性地选择专业,希望...小小詹同学观点|YoavGoldberg撰文再回应YannLeCun:「深度学习这群人」不了解NLP(附各方评论)选自Medium 机器之心编译 作者:YoavGoldberg 参与:黄小天 昨日,机器之心发布了一篇题为《从YoavGoldberg与YannL...机器之心一键查询明星个人信息,并以知识图谱可视化展示最近想搞一点好玩的事情(技术),今天打算做一个小程序:一键查询明星个人信息。

(从数据抓取到知识图谱展示,全程代码完成原创,不涉及调用api包)Python研究者震撼三观:从细胞到宇宙从这个距离看,所有的星系看起来都变得很小,星系之间相距遥远。

同样的法则统治着宇宙的每一个组成部分钱塘数据清华大学孙茂松、刘知远教授新书问世,解锁「知识图谱与深度学习」知识图谱作为典型的符号表示系统,如何有效用于机器学习算法,面临着知识表示、知识获取和计算推理等方面的诸多挑战。

新智元更多文章数据派THU关注专栏文章1.2K阅读量679.5K获赞4.4K作者排名89腾讯云原生专题云原生技术干货,业务实践落地。

视频公开课上线啦Vite学习指南,基于腾讯云Webify部署项目立即查看腾讯云自媒体分享计划入驻云加社区,共享百万资源包。

立即入驻广告关闭社区专栏文章阅读清单互动问答技术沙龙技术快讯团队主页开发者手册腾讯云TI平台活动原创分享计划自媒体分享计划邀请作者入驻自荐上首页在线直播生态合作计划资源技术周刊社区标签开发者实验室关于视频介绍社区规范免责声明联系我们友情链接归档问题归档专栏文章归档快讯文章归档关键词归档开发者手册归档开发者手册Section归档云+社区扫码关注云+社区领取腾讯云代金券热门产品域名注册云服务器区块链服务消息队列网络加速云数据库域名解析云存储视频直播热门推荐人脸识别腾讯会议企业云CDN加速视频通话图像分析MySQL数据库SSL证书语音识别更多推荐数据安全负载均衡短信文字识别云点播商标注册小程序开发网站监控数据迁移Copyright©2013-2022TencentCloud.AllRightsReserved.腾讯云版权所有京公网安备11010802017518粤B2-20090059-1扫描二维码扫码关注云+社区领取腾讯云代金券



請為這篇文章評分?