基于加权引文的贝叶斯分类研究

基于加权引文的贝叶斯分类研究

ID:35061728

大小:5.89 MB

页数:63页

时间:2019-03-17

基于加权引文的贝叶斯分类研究_第1页
基于加权引文的贝叶斯分类研究_第2页
基于加权引文的贝叶斯分类研究_第3页
基于加权引文的贝叶斯分类研究_第4页
基于加权引文的贝叶斯分类研究_第5页
资源描述:

《基于加权引文的贝叶斯分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、研究生毕业论文(申请硕去专业学位)论文题目泉于加权引文的巧叶斯分类研究.作者化名构业图书情报棘研究方向信息检索指导教师成颖教授2016年5月巧日学号:AF间外0么/论文答辩曰期:王〇|4年^月2^曰指导教师:(签字)ResearchonNaiveBayesClass姐cationw地WeightedCitationADissertationSubmiter化NaninUniversitjgyFortheProfessionalDegreeofMasterofManagement

2、ScienceBYBaiHanSuervisedBpyProfessorChengYingSchoolofInformationManaementgNaninUniversitjgyMa2016y南京大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师指导下独立进行的研究工作,所取得的成果。尽我所知,除了文中特别加W标注引用的内容外论文中不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研巧做出重要贡献的个人和集体,均己在文中作了明确的说明并表示了谢意。心公.研究生签名期;;如给日南京大学

3、学位论文使用授权声明本学位论文作者同意学校保留并向国家有关部口或机构送交学位论文的复印件和电子文档,可W采用影印、缩印或扫描等复制手段保存论文。本人电子文一档的内容和纸质论文的内容相致,允许论文被查。除在保密期内的保密论文外閲和借阅,可W公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权南京大学研究生院办理。;研究生签名;柏会导师签名;期?南京大学硕±学仿论义中义摘嬰南京大学研究生毕业论文中文摘要首页用纸毕业论文题目:基于加权引文的贝叶斯分类研究图书情报专业2013级硕去生姓名:柏瞭指导教リ甲(姓名、职称):成

4、颖教授摘要文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预A给定的类别标记1abel合下根据文本内容判定它的类别。通过文本自动分类U)集,系统能够对信息进行有效,的管理,提供便捷的信息服务。朴素贝叶斯能够快速高效的完成分类任务,且能够很好的进行増量变化,这使得其在基于自动分类的服务系统中受到广泛应用。在学术文献中,存在着大量的引用文献,通过其形成的引用网络能够获得许多原文献中缺少的信息,利用引用网络和引文可有效的改善分类效果。将引文网络L义及引文域与贝叶斯算法相结合,可W构建高效的分类器为学术研巧提供信息服务:。本文主要工作如下一1、本

5、文系统地介绍了文本自动分类的般流程。之后详细分析了贝叶斯的基础理论模型,总结分析得出朴素贝叶斯对于属性特征的敏感性,即其受到噪声的影响较大。因此特征选择对于朴素贝叶斯分类十分重要。在其基巧5上对不同改进模型的研充现状与性能优缺点进行了系统综述。贝叶斯主要改进模型通常称为半朴素贝叶斯分类,该类模型能够更好地满足一朴素贝叶斯的词项独立性假设,却会在定程度上提高时间复杂度,在使用中需要根据不同需求选择不同模型Z-。其主要分为依赖分类器、有效特征子集、加权贝叶斯三种改进方式。之后本文对包括引用网络在内的各种网状数据分类方法进行了较为全面的解读。2、本文参考网状结构数

6、据分类的理论与应用成果提出利用引用关系、引文域词项特征及不同域加权对分类方法进行改进。此外,本文利用学术文献引用中存在的部分引文多次被施引文献引用的现象。,利用弓I用频次对引用关系和引文域词项进巧加化W帮助更好的分类基于该思路,本文设计了4个实验,得到了如下结论:(。1)引文信息可W提升学术文献分类的效果单独使用引用信息(引用关系、引文域词项)的分类效果在准确率和召回率指标上低于传统分类器;基于引文域词项的分类器与正文分类器相结合可L:A有效提高分类效果。(2)对题名(化le)、stract、正od、引文re拓rence题录词项赋予4:2:摘要帅)文(by)

7、():12'7-苏金祝张博锋:】1.徐配基于机器学习的文本分类技术研巧进展町软件学化200619848859,,()I南京大学硕+学位论义中义楠要的权重在众多加权方案中可W获得最优的分类效果。(3)引文特征在训练集选取较少的情况下对引文与正文分别建模的分类器准确率提升的效果更为突出。在多项式、贝叶斯网络化及多元伯努利模型等S个分类器中,后者结合引文域词项特征的表现最好。(4)不同分类模型的分类效果存在差异。在召

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。