基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf

基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf

ID:32042761

大小:2.11 MB

页数:62页

时间:2019-01-30

基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf_第1页
基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf_第2页
基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf_第3页
基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf_第4页
基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf_第5页
资源描述:

《基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于词语权重改进的朴素贝叶斯分类算法的研究与应用第1章绪论第1章绪论1.1研究背景及意义随着网络的普及和相关技术的发展,互联网已经成为主流的信息发布源之一,越来越多用户通过网络浏览来获取新闻。但是传统的网页浏览方式随着网络信息的累积和扩展也暴露出一些问题,例如纷繁复杂的新闻首页为用户的浏览带来了困扰,网页内容的更新也难以被用户第一时间获取,传统的一些搜索引擎也只能提供大量相关的非精确信息。这就使得用户在搜索自己所需要的信息上花很多的时间都搜索不到准确信息。因此,如何快捷高效地筛选并整合对用户有用的知识成为了互联网

2、技术中的关键研究问题之一。由于Internet上充满的大量信息是以超链接的形式组织在一起的,所以在信息发布的时候,很多情况下人们并非只在自己的网站上发布原创新闻,往往还需要引用其他网站上的新闻来充实自己的内容。在一个网站中引用的新闻如果来自多个不同的站点,这是一种新闻聚合(newsaggregation)过程。新闻聚合是一种基于订阅的内容交换过程,当新闻发布者与读者达成某种协议后,由新闻发布者向读者提供特定的内容。新闻聚合技术可以避免传统Web浏览方式的一些弊端,比如说用户需要打开多个浏览器窗口,进入不同的门户网

3、站,再从这些站点寻找感兴趣的标题,点击相应的链接后才能看到目标信息。同时,并非任何人都可以在网站上发布信息,一般来说只有网站的信息管理员才有权更新网站内容,网站信息管理员的工作量与新闻发布者的数量、需要发布的新闻条数以及需要更新的网页数量三者的乘积成正比,而且每一条新闻和每一个网页的更新都是独立进行的。如果信息的发布与更新都由人手工完成的话,一方面工作量会非常大,同时也会存在很多手工的错误。正是因为传统Web浏览方式存在这些问题,新一代信息发布技术RSS应运而生。目前,RSS文档的分类依赖于预先设定。例如,百度的

4、RSS新闻订阅,把新闻分为若干类,分别是:国内新闻、国际新闻、互联网、科技、社会、娱乐、基于词语权重改进的朴素贝叶斯分类算法的研究与应用第1章绪论体育等。可以看出,这样的分类存在着不足。其中很重要的一个问题就是用户不能按照自定义的类别去订阅这些新闻。RSS技术发展到今天受到越来越多用户的推崇,因为它从根本上改进了传统的被动获取新闻的方式,而采用了一种更加人性化的、互动性强的机制。RSS技术目前广泛应用于Blog、Wiki和网上新闻频道等。本文针对目前存在的这些问题,主要研究如何通过RSS技术收集信息源,并解析RS

5、S摘要,然后通过朴素贝叶斯分类算法进行信息内容的自动分类。1.2国内外研究现状国外对文本自动分类的研究始于20世纪50年代末,H.P.Luhn首先将词频统计思想用于自动分类,在该领域进行了开创性研究。1960年,Maron在JournaloftheACM上发表了有关自动分类的第一篇论文{Onrelevance,probabilisticindexingandinformationretrieval》[1],其后许多学者在这一领域进行了卓有成效的研究,如K.Spark、G.Salton以及R.M.Needham、M

6、.E.Lesk、K.S.Jones等[2]。到目前为止,国外的文本自动分类研究已经从最初的可行性基础研究经历了试验性研究进入到了实用化阶段。1994年,AT&T实验室的DavidD.Lewis等人研究了基于非确定性的分类技术。两年后,该实验室将分类的技术应用于电子邮件领域。1997年,德国Dortmund大学计算机系的TorstenJoachims等人对基于向量空间模型的自动分类系统做了研究。同年,美国Stanford大学计算机系的DaphneKole等人提出了基于很少语料词汇的层次自动分类方法。1998年,美国

7、CarnegieMellon大学计算机系的YimingYang等人在文本在线自动分类领域中应用了决策树等聚类算法。1999年,美国JustResearch公司的AndrewMcCallum等人运用信息熵理论、Bayes理论等实现了多类号的自动分类。随后,美国Massachusetts大学计算机系专门针对文本库开发了自动分类系统,为了推广电子商务,美国IBM和Oracle公司研制了基于文本内容的电子邮件自动分类系统,Microsoft公司也为其浏览器开发了基于内容属性分类的插件。在20世纪60年代和20世纪80年代

8、末期间,由专家人工构建的基于知识工程技术的分类系统一直是最有效的文本分类系统。其典型应用就是卡内基集团委2基于词语权重改进的朴素贝叶斯分类算法的研究与应用第1章绪论托路透社开发的Construe系统,它主要是由专业人员编写一些分类规则来指导分类,在Reuters的部分语料库上它的效果非常好,平均准确率和召回率大约都可以达到90%,然而在其他应用领域采用该系统将会消耗大量的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。