领域术语自动抽取方法研究

领域术语自动抽取方法研究

ID:43668023

大小:1.04 MB

页数:51页

时间:2019-10-12

领域术语自动抽取方法研究_第1页
领域术语自动抽取方法研究_第2页
领域术语自动抽取方法研究_第3页
领域术语自动抽取方法研究_第4页
领域术语自动抽取方法研究_第5页
资源描述:

《领域术语自动抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、领域术语自动抽取方法研究刘桃报告内容绪论课题研究的目的、意义及研究现状论文主体领域文本自动判别方法领域术语自动抽取方法在文本分类和问答式信息检索中的应用结论报告内容绪论课题研究的目的、意义及研究现状论文主体领域文本自动判别方法领域术语自动抽取方法在文本分类和问答式信息检索中的应用结论绪论研究目的为面向领域的应用提供可定制的领域文本自动判别方法和领域术语自动抽取方法研究意义对所有面向领域的应用都有重要意义垂直搜索文本自动分类语言建模词义消歧绪论:领域文本自动判别研究现状领域文本自动判别有监督文本分类方法文本表示:概

2、率模型、向量空间模型特征选择:TF-IDF、互信息、期望交叉熵、信息增益等分类算法:Rocchio法、贝页斯分类法、K最近邻分类法、支持向量机、决策树、神经网络半监督文本分类方法产生式模型和期望最大化、直推式支持向量机、自助学习法、协同训练法、主动学习法基于正例的文本分类方法PEBL、Spy_EM、Roc_SVM、类别约束SVM(Biased_SVM)、PNLH方法绪论:领域术语自动抽取研究现状中文词语的领域类别判定之前要进行中文新词发现中文新词发现启发式特征:构词力、构词模式、互信息、上下文依赖机器学习模型:隐

3、马尔科夫模型、最大熵、最大熵马尔科夫模型、支持向量机、条件随机域绪论:领域术语自动抽取研究现状词语的领域类别判定基于语言学知识的方法英文的拼写线索、包含词缀等信息的术语要素词典、潜层语法分析、设定规则模版基于统计量度的方法基于类别的TFIDF(KFIDF)、领域相关性+领域一致性(DR+DC)、C-值、C/NC值机器学习方法基于自助学习法的半监督术语获取方法基于词语分类的术语获取方法绪论:研究现状领域术语自动抽取的评价人工评价:语言学家或者研究者通过个人判断来确定抽取的词语是否为领域术语对抽取结果有直观感受费时、

4、费力受人主观性影响应用评价:看领域术语抽取模块在应用系统中的表现评测迅速完全面向应用,不同的应用系统可能会产生不尽相同的结果报告内容绪论课题研究的目的、意义、研究现状论文主体领域文本自动判别方法研究领域术语自动抽取方法研究在文本分类和问答式信息检索中的应用设计结论研究框架领域文本自动判别有监督文本分类基于正例的文本分类领域术语自动抽取中文新词发现术语抽取自助学习法基于统计量度的术语抽取应用研究在文本分类中的应用在问答式信息检索中的应用词语的领域类别判定概念语义网络专业信息采集特征集扩展特征选择①领域文本自动判别方

5、法完整分类体系下的领域文本判别有监督文本分类方法需要为每个类别提供一定规模的训练语料实现了一个文本分类评测平台包括10种可定制的特征选择算法和4种可定制的分类算法特征选择算法:词频与倒文档频度(TFIDF)、期望交叉熵(ECE)、统计、互信息(MI)、文本证据权(WE)、信息增益(IG)、文档频度(DF)、KFIDF、DR+DC、NCD+NDD方法分类算法:简单贝叶斯(NB)、Rocchio、K最近邻(KNN)和支持向量机(SVM)领域文本自动判别方法非完整分类体系下反例集获取困难完整分类体系下训练某个类别的分类

6、器时,其他类别训练语料的合集作为反例集非完整分类体系下获取某个类别的平衡反例集比较困难基于正例的文本分类方法不需要提供已标注的反例集需要使用大规模未标注样本基于正例的文本分类问题的传统方案步骤一:启发式样本标注1-DNF,PNLH,spy,rocchio…步骤二:建立分类器通过迭代建立一系列分类器只建立一个分类器传统方法存在的问题启发式样本标注中,高准确率和高召回率不可兼得1_DNF:将U中不含全部正例特征的文档看作反例高准确率,低召回率PNLH:定义正例参考值(PRP),将PRP值小于U集全部文档PRP平均值的

7、文档当作反例低准确率,高召回率不同途径得到的标注样本的置信度不一致,传统方法不加区别的使用所有样本势必导致分类准确率下降基于置信度加权的领域文本判别法多策略样本标注算法自动标注尽可能多的样本,即在保证样本标注召回率的前提下,按照标注样本的置信度对样本集进行划分加权支持向量机算法为不同置信度的样本赋予不同的权重不同标注策略的样本置信度实验Retuers语料上的标注样本置信度一级正例二级正例一级反例二级反例三级反例acq1.00000.67390.99400.95420.3528corn1.00000.46431.0

8、0001.00000.8558crude1.00000.83710.99990.99960.7407earn1.00000.68840.99930.84990.6822grain1.00000.90710.99990.99880.6486interest1.00000.45310.99990.99920.8303money-fx1.00000.53160.99990.99

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。