自动分类技术ppt课件.ppt

自动分类技术ppt课件.ppt

ID:59766476

大小:1.86 MB

页数:20页

时间:2020-11-23

自动分类技术ppt课件.ppt_第1页
自动分类技术ppt课件.ppt_第2页
自动分类技术ppt课件.ppt_第3页
自动分类技术ppt课件.ppt_第4页
自动分类技术ppt课件.ppt_第5页
资源描述:

《自动分类技术ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、自动分类技术1背景介绍自上个世纪80年代以来,信息化的浪潮席卷全球,信息技术迅速地渗透到社会经济的各个领域。随着Internet的普及和网络技术的不断完善,Internet已经成为了全球最庞大最丰富的信息资源库。由于Internet的开放性,各类信息都能在第一时间发布在Internet上。然而,也导致了Internet上信息的杂乱性和冗余性。因此,自动分类技术随着时代的需求而蓬勃发展了起来。作为一种有效的信息处理方法,自动分类技术将各类信息按照一定的分类体系进行分类整理,从而大大提高了用户搜集情报的效率。自动分类技术

2、是在手工分类技术的基础上发展起来的。传统的信息手工分类技术已经相当成熟,但却不适于对Internet上时刻更新的信息进行处理。因为它不具有实时性,另外查全率和分类的一致性也受到一定的制约。世界著名搜索引擎Yahoo长期以来集中了大量人力进行手工分类,并且曾经因此获得了巨大的成功,但这种成功的背后已潜伏着落后的危机。Yahoo宣布同Google合作,开发自动分类技术以取代手工分类——自动分类技术已经成为大势所趋。2自动分类历史自动分类技术的研究始于20世纪50年代末,IBM公司的H.P.Luhn在这一领域进行了开创性的

3、研究。1960年,Maron在JournalofACM上发表了有关自动分类的第一篇论文OnRelevance,ProbabilisticIndexingandInformationRetrieval,随后许多著名的情报学家如K.Sparch、G.Salton及R.M.Needham等都在这一领域进行了卓有成效的研究。相对于国外的情况,我国开展自动分类的研究起步稍晚一些。80年代中期开始,我国的一些大学、图书馆和文献工作单位开展了档案、文献或图书的辅助或自动分类研究,并陆续研制出一批计算机辅助分类系统和自动分类系统,这

4、些系统主要集中在中文处理领域。3自动分类的种类自动分类是计算机系统代替人工对文本,网页等对象进行分类。从实现途径进行划分,自动分类分为自动聚类和自动归类。自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则将具有相同或相近特征的对象定义为一类。自动归类是分析被分类对象的特征,并与事先定义好的各种类别具有的共同特征进行比较,然后将对象划归为特征最接近的一类并赋予相应的分类号。4自动分类的作用目前搜索引擎提供两种信息查询方式:分类浏览和关键词检索。分类浏览一般是基于网站分类目录。它浏览的对象是

5、网站,目录分类的质量较高,检索效果好;但是成本高、信息更新慢、维护的工作量大。关键词检索的对象不是网站,而是符合条件的网页。关键词检索信息量大、更新及时、不需要人工干预;但是返回信息过多,质量太低。如果能够实施网页的自动分分类,就可以实现网页标引和检索的分类主题一体化,搜索引擎就能够兼有分类浏览、检索和关键词检索的优点,同时具备族性检索和特性检索的功能;能够深入到网页层次,帮助用户迅速的判断返回的结果是否符合自己的检索要求。5自动分类算法(1)KNN法(2)SVM法(3)VSM法(4)Bayes法(1)KNN法KNN

6、法即K最近邻法该方法的思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。具体的算法步骤如下:STEP1:根据特征项集合重新描述训练文本向量;STEP2:在新文本到达后,根据特征词分词新文本,确定新文本的向量表示;STEP3:在训练文本集中选出与新文本最相似的K个文本,计算公式为:i表示第i篇档的特征向量j表示第j篇文档的特征向量,M为特征向量的维数,sim(d)表示第i

7、和j篇文档的相似度,讯为向量的第k维。STEP4:在新文本的K个邻居中,依次计算每类的权重,计算公式如下:其中,征向量,sim()为相似度计算其中,也为新文本的特公式,而到,c为类别属性函数,如果属于cj类,那么函数值为1,否则为0。STEP5:比较类的权重,将文本分到权重最大的那个类别中。优缺点优点:可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。缺点:计算量较大,因为

8、对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。(2)SVM法SVM法即支持向量机法主要思想是针对2类分类问题,在高维空间中寻找一个超平面作为2类的分割,以保证最小的分类错误率。SVM法对小样本情况下的自动分类有着

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。