依存句法分析-Constituency-based parse trees
文章推薦指數: 80 %
句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是 ... SemEval-2016 Task 9中文语义依存图数据:http://ir.hit.edu.cn/2461.html.
文章目录
想要了解更多NLP相关的内容,请访问 NLP专题,免费提供59页的NLP文档下载。
访问NLP专题,下载59页免费PDF
什么是句法分析?
句法分析(syntacticparsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。
对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。
例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析。
语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。
根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:
句法结构分析(syntacticstructureparsing),又称短语结构分析(phrasestructureparsing),也叫成分句法分析(constituentsyntacticparsing)。
作用是识别出句子中的短语结构以及短语之间的层次句法关系。
依存关系分析,又称依存句法分析(dependencysyntacticparsing),简称依存分析,作用是识别句子中词汇与词汇之间的相互依存关系。
深层文法句法分析,即利用深层文法,例如词汇化树邻接文法(LexicalizedTreeAdjoiningGrammar,LTAG)、词汇功能文法(LexicalFunctionalGrammar,LFG)、组合范畴文法(CombinatoryCategorialGrammar,CCG)等,对句子进行深层的句法以及语义分析。
什么是依存句法分析?
维基百科是这样描述的:Thedependency-basedparsetreesofdependencygrammarsseeallnodesasterminal,whichmeanstheydonotacknowledgethedistinctionbetweenterminalandnon-terminalcategories.Theyaresimpleronaveragethanconstituency-basedparsetreesbecausetheycontainfewernodes.
依存句法是由法国语言学家L.Tesniere最先提出。
它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。
也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。
在自然语言处理中,用词与词之间的依存关系来描述语言结构的框架称为依存语法(dependencegrammar),又称从属关系语法。
利用依存句法进行句法分析是自然语言理解的重要技术之一。
相关重要概念
依存句法认为“谓语”中的动词是一个句子的中心,其他成分与动词直接或间接地产生联系。
依存句法理论中,“依存”指词与词之间支配与被支配的关系,这种关系不是对等的,这种关系具有方向。
确切的说,处于支配地位的成分称之为支配者(governor,regent,head),而处于被支配地位的成分称之为从属者(modifier,subordinate,dependency)。
依存语法本身没有规定要对依存关系进行分类,但为了丰富依存结构传达的句法信息,在实际应用中,一般会给依存树的边加上不同的标记。
依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的依存(修饰)关系。
一个依存关系连接两个词,分别是核心词(head)和依存词(dependent)。
依存关系可以细分为不同的类型,表示两个词之间的具体句法关系。
常见方法
基于规则的方法:早期的基于依存语法的句法分析方法主要包括类似CYK的动态规划算法、基于约束满足的方法和确定性分析策略等。
基于统计的方法:统计自然语言处理领域也涌现出了一大批优秀的研究工作,包括生成式依存分析方法、判别式依存分析方法和确定性依存分析方法,这几类方法是数据驱动的统计依存分析中最为代表性的方法。
基于深度学习的方法:近年来,深度学习在句法分析课题上逐渐成为研究热点,主要研究工作集中在特征表示方面。
传统方法的特征表示主要采用人工定义原子特征和特征组合,而深度学习则把原子特征(词、词性、类别标签)进行向量化,在利用多层神经元网络提取特征。
依存分析器的性能评价
通常使用的指标包括:无标记依存正确率(unlabeledattachmentscore,UAS)、带标记依存正确率(labeledattachmentscore,LAS)、依存正确率(dependencyaccuracy,DA)、根正确率(rootaccuracy,RA)、完全匹配率(completematch,CM)等。
这些指标的具体意思如下:
无标记依存正确率(UAS):测试集中找到其正确支配词的词(包括没有标注支配词的根结点)所占总词数的百分比。
带标记依存正确率(LAS):测试集中找到其正确支配词的词,并且依存关系类型也标注正确的词(包括没有标注支配词的根结点)占总词数的百分比。
依存正确率(DA):测试集中找到正确支配词非根结点词占所有非根结点词总数的百分比。
根正确率(RA):有二种定义,一种是测试集中正确根结点的个数与句子个数的百分比。
另一种是指测试集中找到正确根结点的句子数所占句子总数的百分比。
完全匹配率(CM):测试集中无标记依存结构完全正确的句子占句子总数的百分比。
相关数据集
PennTreebank:PennTreebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。
SemEval-2016Task9中文语义依存图数据:http://ir.hit.edu.cn/2461.html
下载地址
CoNLL经常开放句法分析的学术评测,比如:
2018年的通用句法分析评测任务
2009年多语言多语言的句法依存和语义角色联合评测任务:
2008年英语的依存句法-语义角色联合评测任务:
2007年多语言依存分析评测:
相关工具推荐
StanfordCoreNLP
斯坦福大学开发的,提供依存句法分析功能。
Github地址| 官网
HanLP
HanLP是一系列模型与算法组成的NLP工具包。
提供了中文依存句法分析功能。
Github地址| 官网
SpaCy
工业级的自然语言处理工具,遗憾的是目前不支持中文。
Gihub地址| 官网
FudanNLP
复旦大学自然语言处理实验室开发的中文自然语言处理工具包,包含信息检索:文本分类、新闻聚类;中文处理:中文分词、词性标注、实体名识别、关键词抽取、依存句法分析、时间短语识别;结构化学习:在线学习、层次分类、聚类。
Github地址|代码上传地址
本文转自公众号AI小白入门,原文地址
RelatedArticles
Attention机制
42
Transformer
2
Encoder-Decoder和Seq2Seq
47
自然语言生成-Natural-languagegeneration|NLG
5
文本挖掘-Textmining
8
Comments
Therearenocommentsyet
Leaveacomment取消回复您的电子邮箱地址不会被公开。
评论显示名称
电子邮箱地址
网站地址
Δ
关注我们的公众号好课推荐-成为AI产品经理好课推荐-人工智能基础课好课推荐-AI技术内参好课推荐-物联网开发实战
人工智能相关知识
AI算法
(37)
Attention机制
Encoder-Decoder和Seq2Seq
Q-Learning
Adaboost算法
随机森林-Randomforest
学习向量量化-Learningvectorquantization|LVQ
K邻近-k-nearestneighbors|KNN
线性判别分析-LinearDiscriminantAnalysis|LDA
TF-IDF
元学习-Metalearning
遗传算法(Geneticalgorithm|GA)
判别式模型(Discriminativemodel)
产生式模型(Generativemodel)
LatentDirichletAllocation|LDA
启发式算法-Heuristic
粒子群算法(Particleswarmoptimization|PSO)
人工神经网络-ArtificialNeuralNetwork|ANN
迁移学习(Transferlearning)
长短期记忆网络-Longshort-termmemory|LSTM
生成对抗网络-GenerativeAdversarialNetworks|GAN
循环神经网络-RecurrentNeuralNetwork|RNN
卷积神经网络-CNN
受限玻尔兹曼机(RestrictedBoltzmannmachine|RBM)
强化学习-Reinforcementlearning|RL
自编码器(Autoencoder)
前馈神经网络(Feedforwardneuralnetwork)
模糊神经网络(Neuro-fuzzy|FNN)
自组织映射(Self-organizationmap|SOM)
K均值聚类(k-meansclustering)
反向传播算法(Backpropagation)
集成学习(EnsembleLearning)
支持向量机-SupportVectorMachine|SVM
决策树-Decisiontree
逻辑回归-Logisticregression
朴素贝叶斯-NaiveBayesclassifier|NBC
线性回归-linearregression
机器学习-machinelearning|ML
基础科普
(15)
训练集、验证集、测试集(附:分割方法+交叉验证)
分类模型评估指标——准确率、精准率、召回率、F1、ROC曲线、AUC曲线
预训练(Pre-train)
无监督学习-Unsupervisedlearning|UL
监督学习-Supervisedlearning
大数据(Bigdata)
TPU(TensorProcessingUnit)
ASIC(ApplicationSpecificIntegratedCircuit)
FPGA(Field-ProgrammableGateArray)
GPU(GraphicsProcessingUnit)
算力-computation
算法-Algorithm
图灵测试-TheTuringTest
弱人工智能、强人工智能、超人工智能
人工智能-Artificialintelligence|AI
数学基础
(16)
张量|Tensor
随机梯度下降法(Stochasticgradientdescent|SGD)
梯度下降法-Gradientdescent
约束优化(Constrainedoptimization)
估计理论(Estimationtheory)
假设检验(Hypothesistest)
数理统计(Mathematicalstatistics)
最大后验概率(Maximumaposterioriestimation|MAP)
最大似然估计-MaximumLikelihoodEstimate|MLE
后验概率(Posteriorprobability)
先验概率(Priorprobability)
概率论(Probabilitytheory)
矩阵|Matrix
标量|scalar
向量|vector
线性代数(linearalgebra)
机器学习
(12)
Adaboost算法
随机森林-Randomforest
无监督学习-Unsupervisedlearning|UL
监督学习-Supervisedlearning
K均值聚类(k-meansclustering)
集成学习(EnsembleLearning)
支持向量机-SupportVectorMachine|SVM
决策树-Decisiontree
逻辑回归-Logisticregression
朴素贝叶斯-NaiveBayesclassifier|NBC
线性回归-linearregression
机器学习-machinelearning|ML
深度学习
(8)
胶囊神经网络
Attention机制
深度学习-Deeplearning|DL
长短期记忆网络-Longshort-termmemory|LSTM
生成对抗网络-GenerativeAdversarialNetworks|GAN
循环神经网络-RecurrentNeuralNetwork|RNN
卷积神经网络-CNN
强化学习-Reinforcementlearning|RL
特征工程
(4)
分类特征
数值类特征
探索性数据分析|EDA
特征工程-FeatureEngineering
自然语言处理
(16)
Attention机制
Encoder-Decoder和Seq2Seq
词干提取-Stemming|词形还原-Lemmatisation
分词-Tokenization
词性标注-Partofspeech
成分句法分析
词嵌入|Wordembedding
Word2vec
依存句法分析-Constituency-basedparsetrees
自然语言生成-Natural-languagegeneration|NLG
自然语言理解-NLU|NLI
Transformer
文本挖掘-Textmining
BERT|BidirectionalEncoderRepresentationfromTransformers
命名实体识别-Named-entityrecognition|NER
自然语言处理-Naturallanguageprocessing|NLP
计算机视觉
(5)
胶囊神经网络
人脸识别|Facialrecognition
计算机视觉-ComputerVision|CV
卷积神经网络-CNN
支持向量机-SupportVectorMachine|SVM
语音交互
(4)
语音合成标记语言-SSML丨SpeechSynthesisMarkupLanguage
语音识别技术-ASR丨AutomaticSpeechRecognition
音素-phone|phonetics
语音合成(TexttoSpeech|TTS)
AI新闻
AI会永远改变内容营销吗?
使用机器学习,你只需要3个工具
终端设备上的AI—到目前为止我所知道的
数据科学生命周期的7个步骤–在业务中应用AI
Lyft的CraigMartell访谈录:更少算法,更多应用
ZH-CNEN
延伸文章資訊
- 1Introduction to Constituency Parsing (選區解析) | 學術寫作例句辭典
Experimental results show that our model can achieve strong results on unsupervised constituency ...
- 2李宏毅.DLHLP2020(完结) - CSDN博客
Parsing有两种,一种是Constituency Parsing,一种是Dependency Parsing,第一种上节已讲,这节来看后面这个。 ... ubuntu16。04安裝谷歌等中文...
- 3CS224N学习笔记(五)依存句法分析 - CSDN博客
Lecture 5: Dependency Parsing对于句法结构分析,主要有两种方式:Constituency Parsing(成分句法分析)与Dependency Parsing(依存句...
- 4constituent parsing & dependency parsing - 知乎 - 知乎专栏
- 5Constituency parsing: 中文翻译, 含义、同义词、反义词、发音
Constituency parsing: 中文翻译, 含义、同义词、反义词、发音、例句、转录、定义、短语. 0. 字典 | 发音 | 例句. constituency parsing. 选区解...