基于松弛策略的文本层次分类体系构建与分类方法研究

基于松弛策略的文本层次分类体系构建与分类方法研究

ID:35066576

大小:3.19 MB

页数:80页

时间:2019-03-17

基于松弛策略的文本层次分类体系构建与分类方法研究_第页
预览图正在加载中,预计需要20秒,请耐心等待
资源描述:

《基于松弛策略的文本层次分类体系构建与分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:基于松弛策略的文本层次分类体系构建与分类方法研究论文作者:杜晓燕学科:计算机科学与技术指导教师:杜永萍论文提交日期:2016年6月UDC:004学校代码:10005中文图书分类号:TP391学号:S201307013密级:公开北京工业大学工学硕士学位论文题目:基于松弛策略的文本层次分类体系构建与分类方法研究英文题目:RESEARCHONTHETEXTHIERARCHYCONSTR

2、UCTIONANDCLASSIFICATIONMETHODBASEDONTHERELAXSTRATEGY论文作者:杜晓燕学科:计算机科学与技术研究方向:计算机软件与理论申请学位:工学硕士指导教师:杜永萍副教授所在单位:计算机学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的

3、材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:杜晓燕日期:2016年6月8日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:杜晓燕日期:2016年6月8日导师签名:杜永萍日期:2016年6月8日摘要摘要随着数字化信息资源的日益增长,大量的文本数据不断涌现,为了有效的管

4、理和使用这些文本数据,人们提出了文本自动分类技术,它可以处理和组织庞大的非结构化的文本数据,提高文本数据的检索效率。通常的文本分类多采用平面分类方法,当文本数量和类别数量较多时,平面分类方法的分类性能急剧下降,尤其表现在分类时间上。层次分类被用在文本的多类分类任务中,在保证分类准确率基本不受影响的前提下,文本层次分类的分类速度更快。为了进一步提高文本层次分类的准确率,在文本层次结构构建方面,本文提出了基于松弛策略的层次结构构建算法,并且针对层次结构的特点提出了基于松弛策略层次结构的软决策分类算法。另外,本文尝

5、试了将不同的文本特征提取方法应用在层次分类任务中。本文的主要工作包括:(1)层次分类中“阻滞”问题的解决——松弛策略文本层次分类中普遍存在“阻滞”问题,为了进一步提高准确性,缓解“阻滞”问题引起的性能下降问题,本文对文本层次结构构建方法进行研究和改进,提出了基于松弛策略的层次结构构建方法,并在该层次结构上进行文本层次分类。(2)提高层次分类性能——软决策方法利用文本层次方法得到的最终的分类结果并不一定是全局最优的,再加上“阻滞”问题的存在,使得文本层次分类的准确率普遍较低。对此,本文在松弛策略层次结构中使用软

6、决策方法进行文本层次分类,并且针对松弛策略层次结构自身的特点,对层次分类算法进行改进,从而进一步提高了文本层次分类性能。(3)特征选择与特征计算方法的有效运用——最小信息熵理论(LIT)本文对不同的文本特征提取方法进行了尝试,引入了最小信息熵模型LIT(LeastInformationTheory),考查不同的特征提取方法对文本层次分类算法的适用性。在特征选择方面,引入了最少信息增益LIG(LeastInformationGain)进行实验;在特征计算方面,本文引入了最少信息熵理论中的LIB(LeastInf

7、ormationBinary)、LIF(LeastInformationFrequency)、LIB*LIF方法进行实验。实验结果表明,使用本文提出的方法构建出来的文本层次结构更加合理,在该结构上使用软决策方法进行层次分类算法改进后,分类准确性逐步提升,性能优于传统的分类算法。同时,LIT特征选择和特征计算方法的引入能够大幅度提升分类性能。关键词:松弛策略;软决策;层次构建;层次分类;特征提取-I-AbstractAbstractWiththegrowingofdigitalinformationresour

8、ces,thereisagreatamountoftextdata.Inordertomanageandutilizethesetextdataeffectively,peoplecomeupwiththetextautomaticclassificationtechnology.Itcanhelpdealandorganizethehugetextdatawithoutstructuresotha

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。