基于最大熵模型网页分类

基于最大熵模型网页分类

ID:34809699

大小:957.27 KB

页数:35页

时间:2019-03-11

基于最大熵模型网页分类_第1页
基于最大熵模型网页分类_第2页
基于最大熵模型网页分类_第3页
基于最大熵模型网页分类_第4页
基于最大熵模型网页分类_第5页
资源描述:

《基于最大熵模型网页分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着wWw的迅猛发展,对网页进行分类成为处理和组织大量文档数据的关键技术。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。研究者通过实验比较和分析了基于最大熵模型的分类器的分类性能,并且分别对其进行了特征优化、预分类处理以及平滑处理的比较,结果发现预分类处理对分类的帮助是很明显的,其余两种操作也在一定程度上提高了分类精度。本文针对最大熵的优点做了以下研究:(1)对网页结构进行分析,根据其连接程度分为C.Hub页面和内容页面两种,以便进一步研究时,可根据不同

2、的特点采取不同的研究方法,旨在提高网页的分类精度。(2)对网页进行了预处理,包括分词、建造类别词库等。通过对词专指度的计算,给出能够确定文章类别的关键词入库。(3)基于最大熵模型,本文用GIS算法求得特征函数,并用传统的特征归纳方法,通过计算两个概率分布之间的距离,分析引入某一特征后的信息增益,对每一特征进行筛选,选出有用的特征组成一个特征优化集合。(4)分别对结构分析得到的两种页面设计特征函数。对于内容页面,由于其形式与纯文本文档非常接近,我们用词一类别作为其特征,采用词频作为特征值;对于C.Hub页面,

3、由于有较高的文字链接比,我们主要对HTML格式进行分析。首先通过分析HTML语言提取出一个优化的HTML标记集合作为研究对象,然后引入Salton提出的文本表示方法,并加以改进,用以表示网页内容,把词本身的特征与其所在位置相结合,计算出特征值t;,生成特征函数。试验结果表明基于最大熵的网页分类方法是行之有效的。它不但能得到最一致的分布,而且保证了网页分类的查准率和查全率。而且它比其他方法较少依赖语言学知识、预处理或语义数据库。不失为一种理想的网页分类方法。关键词:网页分类;最大熵模型;类别词ABSTRACT

4、WiththerapidprogressofWbridWideW如.Classifyingwebpagesisbecomingapwotaltechnologyinprocessingandorganlzmgamassofdocumentsanddata.Asitcarlhelpobservea11kindsofrelativeandirrelativeprobabilityknowledge,MaximumEntropyModelsgivecomparativelybettersolutionstoman

5、yproblems.ResearchersthroughmanyexperimentscompareandanalyzetheperformanceofthesorterbasedonMaximumEntropyModel.TheeSSaywillmakeresearchontheadvantageofMaximumEntropyModel:(1)Byanalyzingtheirstructure,accordingtotheconnection,thewebpageswillbedividedintotw

6、okinds:C.HubWebpageandContentWbbpageSOthatthefurtherresearchcantakeadvantageoftheirdifferentfeaturesandimprovetheclassilyingprecision.(2)Thepre—processtothewebpageincludessortingwords,establishingsortingvocabulary,ete.computingtheparticularityofwordCanaddi

7、ntothevocabularythekeywordsdecidingthewebpage’Sfeatures.(3)BasedontheMaximumEntropyModel,theessaymakesuseofGISalgorithmtogetthefeaturefunction,andthenbytraditionalfeatures.inductivemethodsofgettingthedistancebetweentwoprobabilities,analyzabilitybringsinfor

8、mationgainwithsomefeaturetoscreenouttheusefulcharacteristicsandestablishflcharacteristic-optimizedcollection.(41Analyzingthestructuretogetthefeaturesoftwowebpagedesign.ThestructureofContentwebpageiSverysimila

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。