基于信息熵的特征选择

基于信息熵的特征选择

ID:4124908

大小:622.94 KB

页数:7页

时间:2017-11-29

基于信息熵的特征选择_第1页
基于信息熵的特征选择_第2页
基于信息熵的特征选择_第3页
基于信息熵的特征选择_第4页
基于信息熵的特征选择_第5页
资源描述:

《基于信息熵的特征选择》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1402013,49(10)ComputerEngineeringandApplications计算机工程与应用基于信息熵理论的特征权重算法研究郭红钰GUOHongyu华北计算技术研究所,北京100083NorthChinaInstituteofComputerTechnology,Beijing100083,ChinaGUOHongyu.Researchontermweightingalgorithmbasedoninformationentropytheory.ComputerEngineeringandAppl

2、ications,2013,49(10):140-146.Abstract:Textrepresentationisanimportantprocesstoperformtextcategorization,andthemethodoftextrepresentationplaysanimportantroleinthefinalclassificationaccuracy.ThispaperproposesanewtermweightingalgorithmETFIDF(EntropybasedTFIDF)base

3、doninformationentropytheorytoovercomethelimitationsofthetraditionaltermweightingalgorithmTFIDF(TermFrequencyandInvertedDocumentFrequency).ETFIDFnotonlyconsidersthenumberoftimesatermoccursinadocumentandthenumberofdocumentsintrainingsetinwhichatermoccurs,butalsot

4、akesintoaccountthedistributionofdocumentsinthetrainingsetinwhichthetermoccurs.ExperimentalresultsshowthatETFIDFoutperformsTFIDFintextcategorization.Furthermore,detailedtheoreticalanalysisandexperimentalstudyontherelationshipbetweenETFIDFandfeatureselectionhaveb

5、eendoneinthispaper.Experimentalresultsshowthat,itcanrepresentthetextmoreaccuratelyifwetakeintoaccountthedistri-butionofdocumentsinthetrainingsetinwhichthetermoccursinthetextrepresentationstage.Moreover,itcanachievehigherperformanceforthecombinationofETFIDFandfe

6、atureselectionalgorithmifweconsiderboththeaccuracyandefficiency.Keywords:informationentropy;termweighting;featureselection;textcategorization摘要:文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(TermFrequencyandInvertedDocumentFrequency)中存在的不

7、足,提出了一种基于信息熵理论的特征权重算法ETFIDF(EntropybasedTFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。关键词:信

8、息熵;特征权重;特征选择;文本分类文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.1301-00231向量空间模型中的特征向量的特征的重要程度不低于只出现一次的特征。特征空间中不同特征项对文档的重要程度和对分类(3)规范化(Normalization)假设:同样的特征匹配数,的贡献是不同的,因此文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。