中文文本分类中的特征选择研究.pdf

中文文本分类中的特征选择研究.pdf

ID:52768762

大小:853.63 KB

页数:7页

时间:2020-03-30

中文文本分类中的特征选择研究.pdf_第1页
中文文本分类中的特征选择研究.pdf_第2页
中文文本分类中的特征选择研究.pdf_第3页
中文文本分类中的特征选择研究.pdf_第4页
中文文本分类中的特征选择研究.pdf_第5页
资源描述:

《中文文本分类中的特征选择研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、中文信息学报第18卷第3期JOURNALOFCHINESEINFORMATIONPROCESSINGVol18No3文章编号:1003-0077(2004)03-0017-07中文文本分类中的特征选择研究周茜,赵明生,扈(清华大学电子工程系,北京100084)摘要:本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和NaveBayes方法,在两个不同

2、的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果。其中,当用NaveBayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右。关键词:计算机应用;中文信息处理;文本分类;特征选择;类别区分词中图分类号:TP391文献标识码:AStudyonFeatureSelectioninChineseTextCategori

3、zationZHOUQian,ZHAOMing-sheng,HUmin(DepartmentofElectronicEngineering,TsinghuaUniversity,Beijing100084,China)Abstract:Thispaperintroducesandcompareseightfeatureselectionmethodsintextcategorization.Amongtheeightmeth-ods,Mult-iClassOddsRatio(MC-OR),avariantofO

4、ddsRatiowhichisoftenusedinbinaryclassification,andanewfea-tureselectionmethodbasedonClass-DiscriminatingWords(CDW)areproposed.CombinedwiththeclassicVSMclassifierbasedoncosinesimilarityandtheNaveBayesclassifier,trainingandtestarecarriedoutontwotextsetswithdi

5、fferentclassdistribution.Astheresultsindicate,MC-ORandCDWgainthebestselectingeffect.Keywords:computerapplication;Chineseinformationprocessing;textcategorization;featureselection;class-discriminatingwords1引言文本分类(TextCategorization)是指依据文本的内容,由计算机根据某种自动分类算法,把文

6、本判分为预先定义好的类别。文本分类是信息存储和信息检索中的重要课题。互联网的飞速发展又给文本分类提供了新的应用平台。网页分类是文本分类在网页文本集合上的应用,它在信息过滤,基于个性化的信息服务等方面有着重要用途。网页自动分类具有如下优点:不需要人工干预,节省大量人力物力,更新快,而且分类速度较快,精度较高,满足实际应用要求。文本分类大致可分为三个步骤:文本的向量模型表示,文本特征选择和分类器训练。数量巨大的训练样本和过高的向量维数是文本分类的两大特点。这两个特性决定了文本分类问题收稿日期:2003-11-03

7、基金项目:国家自然科学基金资助项目(60003014;60171037)作者简介:周茜(1980),女,硕士研究生,研究方向为信息检索、中文信息处理17是一个运算时间和空间复杂度很高的学习问题。为了兼顾运算时间和分类精度两个方面,我们不得不进行特征选择,力求在不损伤分类性能的同时达到降维的目的。[2]在文本分类中,常用的特征选择方法有基于阈值的统计方法,如文档频率方法(DF),信[2][2][2][3][3][3]息增益方法(IG),互信息方法(MI),CHI方法,期望交叉熵,文本证据权,优势率,[4]基于

8、词频覆盖度的特征选择方法等,以及由原始的低级特征(比如词)经过某种变换构建正[5]交空间中的新特征的方法,如主分量分析的方法等。基于阈值的统计方法具有计算复杂度低,速度快的优点,尤其适合做文本分类中的特征选择,在本文中将集中研究和比较8种基于[2]阈值的统计方法。关于文本分类中的特征选择问题,比较有代表性的是YangYiming和Dunja[3]Mladenic的工作。前者针对平面文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。