中文文本层次分类方法研究及应用

中文文本层次分类方法研究及应用

ID:34193537

大小:3.48 MB

页数:91页

时间:2019-03-03

中文文本层次分类方法研究及应用_第1页
中文文本层次分类方法研究及应用_第2页
中文文本层次分类方法研究及应用_第3页
中文文本层次分类方法研究及应用_第4页
中文文本层次分类方法研究及应用_第5页
资源描述:

《中文文本层次分类方法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文文本层次分类方法研究及应用(申请扬州I大学工学硕士学位论文)培养单位:扬州大学专业名称:管理科学与工程研究方向:智能信息处理研究生:孔照昆指导老师:李开荣副教授2013.4ResearchonHierarchicalClassificationMethodsforChineseTextsandtheRelatedApplicationThesisSubmittedtoYangzhouUniversityApplyingfortheDegreeofMasterofEngineeringByKongZhaokunThesisSupervisor:Associat

2、eProfessorLiKairongYangzhouUniversity,Yangzhou,ER.China,Apdl,2013本文研究工作得到了以下项目资助1.项目编号:YZ2011098,扬州市科学技术局,2011“基于多源知识融合的网络犯罪侦控技术研究与应用”摘要(Abstract)摘要伴随着网络的迅猛发展,人们要接受的信息数量也成几何级数的增长。面对Intemet中海量的、纷繁芜杂的信息,如文本信息、声音信息、视频信息等等,如何快速有效的获取信息知识,并且能按照某种特定的结构模型进行有序化的整理,这无疑是一个很重要的课题。信息处理技术的目的就是从杂乱的

3、信息中发掘最有效的信息,经过十几年的长足发展,信息处理技术已取得了较大的进步。文本分类技术的任务就是基于文本内容,从给定的类别集中找出一个或多个相似的文本类别,指定于待分类文本,目前常用的方法是基于机器学习和概率统计的文本分类方法。在现实的分类体系中,类别具有多层次的组织结构模式,而传统的文本分类思想恰恰忽略了对层次的考虑。概念层次树的构建,为用户提供了可视化浏览及搜索的操作功能,同时体现了文本库中文本间的语义联系。层次分类的核心思想是“分块而治”,分类过程从根节点开始,将待分类文本与各级节点进行比较,划分到最相似的一个或几个分类树节点下,最终当到达叶子节点时分

4、类过程结束。文本分类技术经历了从基于规则到基于统计,再到如今规则与统计相结合的研究发展过程。其中向量空间模型是较为常用的数学模型,该模型将词条表示为特征向量,由特征向量表征文档,但该模型只关注了词形结构,忽略了词义联系。本文利用潜在语义索引和隐马尔可夫模型等方法,充分利用了文本中隐含语义信息,并依此实现文本层次分类,本文主要研究内容包含以下几个方面:(1)介绍了层次文本分类技术的基本方法和关键技术,并参考分析了国内外相关工作的研究进展,指出在文本层次分类应用中的不足,目前常用的分类法缺少对文本语义信息的考虑,并且分类性能受噪声影响较大,今后的研究应该更注重文本的

5、语义联系。(2)提出了基于潜在语义的文本层次分类法。在以层次结构表示的文本类别中,每一个类别就是一个主题。在文本分类过程中,包含主题类别的词条比其它词条更为重要。本文就提出使用Gibbs抽样的方法,来抽取一系列的概率主题类别标签,文本就由这些概率主题来表示,然后将主题类别标签运用于潜在语义分类模型的构建。本文提出的基于潜在语义索引的模型,探索了主题标签在层次文本分类中的作用。实验结果表明,该方法有效的提高了分类精度。(3)提出了基于改进隐马尔可夫的文本分类过程。在层次文本分类中,主题类别是按照预定的层次关系进行划分的。通过主题类别的划分就是要将分类任务细化为小的

6、子问题,然后对每个主题类别构建一个分类器,最后通过这些子分类器将待分类文本分到层次结构中相应的类别。在树形结构中,待分类文档只与某主题类别节点下的文档比较,只是在同一层次同一节点下的比较。本文按照层次分类的思想提出基于隐马可夫模型的子分类器构II建,并且详细介绍了文本分类的过程。(4)本文结合网络犯罪案件信息分析的运用背景,将层次文本分类的思想运用于网络犯罪案件信息分析系统的构建,提出了原型系统的构建模型。同时,本文为以语义网为基础的案件侦查本体构建提出了统一的标准知识表示结构框架,明确后续本体构建的基本规则。关键词:文本层次分类,特征抽取,潜在语义索引,概率主

7、题,隐马可夫模型摘要(Abstract)AbstractWiththerapiddevelopmentoftheIntemehtheinformationforpeopletoprocesshasmultipliedaccordingly.Facingagreatdealofcomplicatedinformationliketext,sound,video,etc.fromtheIntemet,peoplearerequiredtooptimizegettinginformationandknowledgeandsortingthemthroughcertai

8、nmodels.Info

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。