自然语言处理及应用

自然语言处理及应用

ID:37253990

大小:1.95 MB

页数:41页

时间:2019-05-20

自然语言处理及应用_第1页
自然语言处理及应用_第2页
自然语言处理及应用_第3页
自然语言处理及应用_第4页
自然语言处理及应用_第5页
资源描述:

《自然语言处理及应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、自然语言处理及其应用ApplicationsofNaturalLanguageProcessing自然语言生成自动分词自然语言处理文本分类问答系统CONTENTS01自动分词05文本分类02词性标注06信息抽取03句法分析07问答系统04语义角色标注08NLP工具01自动分词WordSegmentation1自动分词歧义切分未登陆词识别结婚/的/和/尚未/结婚/的/人新通用词或专业名词结婚/的/和尚/未/结婚/的/人专有名词中文分词基于词典的方法基于统计的方法基于深度学习的方法基于序列标注的方法词

2、向量预训练基于匹配判断的方法BMS表示法CRF+BiLSTM网络最大匹配法达观数据位是企业大数据服务商(正向、逆向、双向)BMMESBEBMEBME达观数据/是/企业/大数据/服务商全切分路径选择HMM、CRF模型02词性标注Part-of-SpeechTagging2词性标注将句子中的各个词汇标注上在该句中的正确词性判定词在一定的上下文环境中所体现的语法范畴的过程它作为自然语言理解能力的初步体现,在其基础上可以为后面更高层次的语言处理提供数据资料01基于规则的方法标注02基于统计的方法方

3、法03基于无监督学习的方法2词性标注基于统计的方法HMM隐马尔科夫模型五元组(S,V,π,A,B)模型参数μ(π,A,B)S:状态集合:π:P(x=t)词性t的初始概率i1ii词性集合S(t,t…t)12na:P(t

4、t)从词性t到词性t的转移概率ijjiijV:输出集合:词汇集合W(w1,w2…wn)bjk:P(wk

5、tj)从词性tj到词wk的发射概率aij状态序列:词性序列t1t2……ti……tn(最佳)求解bjk(给定)观察序列:词序列wwww12in2词性标注基于统计的方法HMM

6、隐马尔科夫模型aij状态序列:词性序列t1t2……ti……tn(最佳)求解bjk(给定)观察序列:词序列wwww12innTBestTWiPwtPttiiargmaxPi,argmax1i12词性标注基于统计的方法CRF条件随机场模型f(t,t,w,i)ii+1i状态序列:词性序列t1t2……ti……tn(最佳)求解qi(ti,w,i)(给定)观察序列:词序列W?−1?1argmax???=argmax෍෍??????+1,??,?,?+෍෍??????,?,????=1??=

7、1转移特征函数f用于刻画相邻标记之间的相互关系以及现观测序列对他们的影响状态函数q用于刻画观测序列对标记变量的影响2词性标注基于统计的方法Viteribi算法nTBestTWiPwtPttiiargmaxPi,argmax1i12词性标注基于无监督学习的方法1基于概率图模型的探索2基于深度学习模型的探索“Naturallanguageprocessing(almost)fromscratch”Collobertet.al.2011基本流程输入:迭代次数N,词典D,已分词的生

8、文本T输出:文本T的词性标注结果BEGIN用词典D标注文本T,得到初始标注语料T0For(t=0toN){对语料Tt训练,得到模型Mt通过模型Mt对语料重新标注,得到新的标注语料Tt+1}返回标注语料Tt+1END2词性标注DeepLearning词向量作为初始输入,本身已经刻画了词语之间的相似度信息,进一步帮助提升词性标注结果传统词性标注方法的特征抽取过程主要是将固定上下文窗口的词进行人工组合,而深度学习方法能够自动利用非线性激活函数完成这一目标结合循环神经网络,如双向LSTM,则抽取到的信息不再受

9、到固定窗口的约束,而是可以考虑到整个句子03句法分析SyntacticParsing3句法分析将句子从词语的序列形式按照某种语法体系转化为图结构,以刻画句子内部的句法关系依存句法用词与词之间的支配与被支配的关系来刻画句子框架结构分析方法基于规则的分析方法基于统计的分析方法基于深度学习的分析方法3句法分析基于规则的分析方法基本思路:由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构的歧义消除。自顶向下的分析方法是规则推导的过程,先构建句法树的根节点,再逐步向下扩展,直到叶节点自底向上的

10、分析方法先构造句法树的叶节点,然后再逐步向上合并,直到根节点代表算法:CYK、Early、GLR等算法两者结合的分析方法代表算法:线图算法和左角分析算法3句法分析基于统计的分析方法语法驱动•由人工或者迭代方式生成语法规则,是将训练数据中观察到各种语言现象分布以统计数据的方式与语法规则一起进行编码,求解最优概率的语法树结构。•常见的算法有PCFG算法,上下文依存概率模型,词汇化概率模型数据驱动•不需要特意生成语法,分析结果是按照训练集中的标识模式学习得到。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。