依存句法分析-Constituency-based parse trees

文章推薦指數: 80 %
投票人數:10人

句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是 ... SemEval-2016 Task 9中文语义依存图数据:http://ir.hit.edu.cn/2461.html. 文章目录 想要了解更多NLP相关的内容,请访问 NLP专题,免费提供59页的NLP文档下载。

访问NLP专题,下载59页免费PDF 什么是句法分析? 句法分析(syntacticparsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。

对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。

例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析。

语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。

根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种: 句法结构分析(syntacticstructureparsing),又称短语结构分析(phrasestructureparsing),也叫成分句法分析(constituentsyntacticparsing)。

作用是识别出句子中的短语结构以及短语之间的层次句法关系。

依存关系分析,又称依存句法分析(dependencysyntacticparsing),简称依存分析,作用是识别句子中词汇与词汇之间的相互依存关系。

深层文法句法分析,即利用深层文法,例如词汇化树邻接文法(LexicalizedTreeAdjoiningGrammar,LTAG)、词汇功能文法(LexicalFunctionalGrammar,LFG)、组合范畴文法(CombinatoryCategorialGrammar,CCG)等,对句子进行深层的句法以及语义分析。

  什么是依存句法分析? 维基百科是这样描述的:Thedependency-basedparsetreesofdependencygrammarsseeallnodesasterminal,whichmeanstheydonotacknowledgethedistinctionbetweenterminalandnon-terminalcategories.Theyaresimpleronaveragethanconstituency-basedparsetreesbecausetheycontainfewernodes. 依存句法是由法国语言学家L.Tesniere最先提出。

它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。

也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。

在自然语言处理中,用词与词之间的依存关系来描述语言结构的框架称为依存语法(dependencegrammar),又称从属关系语法。

利用依存句法进行句法分析是自然语言理解的重要技术之一。

  相关重要概念 依存句法认为“谓语”中的动词是一个句子的中心,其他成分与动词直接或间接地产生联系。

依存句法理论中,“依存”指词与词之间支配与被支配的关系,这种关系不是对等的,这种关系具有方向。

确切的说,处于支配地位的成分称之为支配者(governor,regent,head),而处于被支配地位的成分称之为从属者(modifier,subordinate,dependency)。

依存语法本身没有规定要对依存关系进行分类,但为了丰富依存结构传达的句法信息,在实际应用中,一般会给依存树的边加上不同的标记。

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的依存(修饰)关系。

一个依存关系连接两个词,分别是核心词(head)和依存词(dependent)。

依存关系可以细分为不同的类型,表示两个词之间的具体句法关系。

  常见方法 基于规则的方法:早期的基于依存语法的句法分析方法主要包括类似CYK的动态规划算法、基于约束满足的方法和确定性分析策略等。

基于统计的方法:统计自然语言处理领域也涌现出了一大批优秀的研究工作,包括生成式依存分析方法、判别式依存分析方法和确定性依存分析方法,这几类方法是数据驱动的统计依存分析中最为代表性的方法。

基于深度学习的方法:近年来,深度学习在句法分析课题上逐渐成为研究热点,主要研究工作集中在特征表示方面。

传统方法的特征表示主要采用人工定义原子特征和特征组合,而深度学习则把原子特征(词、词性、类别标签)进行向量化,在利用多层神经元网络提取特征。

  依存分析器的性能评价 通常使用的指标包括:无标记依存正确率(unlabeledattachmentscore,UAS)、带标记依存正确率(labeledattachmentscore,LAS)、依存正确率(dependencyaccuracy,DA)、根正确率(rootaccuracy,RA)、完全匹配率(completematch,CM)等。

这些指标的具体意思如下: 无标记依存正确率(UAS):测试集中找到其正确支配词的词(包括没有标注支配词的根结点)所占总词数的百分比。

带标记依存正确率(LAS):测试集中找到其正确支配词的词,并且依存关系类型也标注正确的词(包括没有标注支配词的根结点)占总词数的百分比。

依存正确率(DA):测试集中找到正确支配词非根结点词占所有非根结点词总数的百分比。

根正确率(RA):有二种定义,一种是测试集中正确根结点的个数与句子个数的百分比。

另一种是指测试集中找到正确根结点的句子数所占句子总数的百分比。

完全匹配率(CM):测试集中无标记依存结构完全正确的句子占句子总数的百分比。

  相关数据集 PennTreebank:PennTreebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。

SemEval-2016Task9中文语义依存图数据:http://ir.hit.edu.cn/2461.html 下载地址 CoNLL经常开放句法分析的学术评测,比如: 2018年的通用句法分析评测任务 2009年多语言多语言的句法依存和语义角色联合评测任务: 2008年英语的依存句法-语义角色联合评测任务: 2007年多语言依存分析评测:   相关工具推荐 StanfordCoreNLP 斯坦福大学开发的,提供依存句法分析功能。

Github地址| 官网 HanLP HanLP是一系列模型与算法组成的NLP工具包。

提供了中文依存句法分析功能。

Github地址| 官网 SpaCy 工业级的自然语言处理工具,遗憾的是目前不支持中文。

Gihub地址| 官网 FudanNLP 复旦大学自然语言处理实验室开发的中文自然语言处理工具包,包含信息检索:文本分类、新闻聚类;中文处理:中文分词、词性标注、实体名识别、关键词抽取、依存句法分析、时间短语识别;结构化学习:在线学习、层次分类、聚类。

Github地址|代码上传地址   本文转自公众号AI小白入门,原文地址 RelatedArticles Attention机制 42 Transformer 2 Encoder-Decoder和Seq2Seq 47 自然语言生成-Natural-languagegeneration|NLG 5 文本挖掘-Textmining 8 Comments Therearenocommentsyet Leaveacomment取消回复您的电子邮箱地址不会被公开。

评论显示名称 电子邮箱地址 网站地址 Δ 关注我们的公众号好课推荐-成为AI产品经理好课推荐-人工智能基础课好课推荐-AI技术内参好课推荐-物联网开发实战 人工智能相关知识 AI算法 (37) Attention机制 Encoder-Decoder和Seq2Seq Q-Learning Adaboost算法 随机森林-Randomforest 学习向量量化-Learningvectorquantization|LVQ K邻近-k-nearestneighbors|KNN 线性判别分析-LinearDiscriminantAnalysis|LDA TF-IDF 元学习-Metalearning 遗传算法(Geneticalgorithm|GA) 判别式模型(Discriminativemodel) 产生式模型(Generativemodel) LatentDirichletAllocation|LDA 启发式算法-Heuristic 粒子群算法(Particleswarmoptimization|PSO) 人工神经网络-ArtificialNeuralNetwork|ANN 迁移学习(Transferlearning) 长短期记忆网络-Longshort-termmemory|LSTM 生成对抗网络-GenerativeAdversarialNetworks|GAN 循环神经网络-RecurrentNeuralNetwork|RNN 卷积神经网络-CNN 受限玻尔兹曼机(RestrictedBoltzmannmachine|RBM) 强化学习-Reinforcementlearning|RL 自编码器(Autoencoder) 前馈神经网络(Feedforwardneuralnetwork) 模糊神经网络(Neuro-fuzzy|FNN) 自组织映射(Self-organizationmap|SOM) K均值聚类(k-meansclustering) 反向传播算法(Backpropagation) 集成学习(EnsembleLearning) 支持向量机-SupportVectorMachine|SVM 决策树-Decisiontree 逻辑回归-Logisticregression 朴素贝叶斯-NaiveBayesclassifier|NBC 线性回归-linearregression 机器学习-machinelearning|ML 基础科普 (15) 训练集、验证集、测试集(附:分割方法+交叉验证) 分类模型评估指标——准确率、精准率、召回率、F1、ROC曲线、AUC曲线 预训练(Pre-train) 无监督学习-Unsupervisedlearning|UL 监督学习-Supervisedlearning 大数据(Bigdata) TPU(TensorProcessingUnit) ASIC(ApplicationSpecificIntegratedCircuit) FPGA(Field-ProgrammableGateArray) GPU(GraphicsProcessingUnit) 算力-computation 算法-Algorithm 图灵测试-TheTuringTest 弱人工智能、强人工智能、超人工智能 人工智能-Artificialintelligence|AI 数学基础 (16) 张量|Tensor 随机梯度下降法(Stochasticgradientdescent|SGD) 梯度下降法-Gradientdescent 约束优化(Constrainedoptimization) 估计理论(Estimationtheory) 假设检验(Hypothesistest) 数理统计(Mathematicalstatistics) 最大后验概率(Maximumaposterioriestimation|MAP) 最大似然估计-MaximumLikelihoodEstimate|MLE 后验概率(Posteriorprobability) 先验概率(Priorprobability) 概率论(Probabilitytheory) 矩阵|Matrix 标量|scalar 向量|vector 线性代数(linearalgebra) 机器学习 (12) Adaboost算法 随机森林-Randomforest 无监督学习-Unsupervisedlearning|UL 监督学习-Supervisedlearning K均值聚类(k-meansclustering) 集成学习(EnsembleLearning) 支持向量机-SupportVectorMachine|SVM 决策树-Decisiontree 逻辑回归-Logisticregression 朴素贝叶斯-NaiveBayesclassifier|NBC 线性回归-linearregression 机器学习-machinelearning|ML 深度学习 (8) 胶囊神经网络 Attention机制 深度学习-Deeplearning|DL 长短期记忆网络-Longshort-termmemory|LSTM 生成对抗网络-GenerativeAdversarialNetworks|GAN 循环神经网络-RecurrentNeuralNetwork|RNN 卷积神经网络-CNN 强化学习-Reinforcementlearning|RL 特征工程 (4) 分类特征 数值类特征 探索性数据分析|EDA 特征工程-FeatureEngineering 自然语言处理 (16) Attention机制 Encoder-Decoder和Seq2Seq 词干提取-Stemming|词形还原-Lemmatisation 分词-Tokenization 词性标注-Partofspeech 成分句法分析 词嵌入|Wordembedding Word2vec 依存句法分析-Constituency-basedparsetrees 自然语言生成-Natural-languagegeneration|NLG 自然语言理解-NLU|NLI Transformer 文本挖掘-Textmining BERT|BidirectionalEncoderRepresentationfromTransformers 命名实体识别-Named-entityrecognition|NER 自然语言处理-Naturallanguageprocessing|NLP 计算机视觉 (5) 胶囊神经网络 人脸识别|Facialrecognition 计算机视觉-ComputerVision|CV 卷积神经网络-CNN 支持向量机-SupportVectorMachine|SVM 语音交互 (4) 语音合成标记语言-SSML丨SpeechSynthesisMarkupLanguage 语音识别技术-ASR丨AutomaticSpeechRecognition 音素-phone|phonetics 语音合成(TexttoSpeech|TTS) AI新闻 AI会永远改变内容营销吗? 使用机器学习,你只需要3个工具 终端设备上的AI—到目前为止我所知道的 数据科学生命周期的7个步骤–在业务中应用AI Lyft的CraigMartell访谈录:更少算法,更多应用 ZH-CNEN



請為這篇文章評分?