基于贝叶斯的文本分类方法.pdf

基于贝叶斯的文本分类方法.pdf

ID:53007774

大小:111.95 KB

页数:3页

时间:2020-04-11

基于贝叶斯的文本分类方法.pdf_第1页
基于贝叶斯的文本分类方法.pdf_第2页
基于贝叶斯的文本分类方法.pdf_第3页
资源描述:

《基于贝叶斯的文本分类方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第27卷第24期计算机工程与设计2006年12月Vol.27No.24ComputerEngineeringandDesignDec.2006基于贝叶斯的文本分类方法罗海飞,吴刚,杨金生(上海交通大学软件学院,上海200240)摘要:文本分类中的两个关键问题,算法和特征提取。贝叶斯算法是最有效的文本分类算法之一,但是属性间强独立性的假设在现实中并不成立,借鉴概率论中的多项式模型提出了一种改进型的贝叶斯方法;传统的特征抽取方法有词频法、互信息法、CHI统计、信息增益法等,然而上述方法对于词条的权重未作考虑,引进了权重的表征方

2、式,给出了改进方法。由实验证明了通过以上方面的改进,文本分类的正确率得到了提高。关键词:文本分类;特征抽取;贝叶斯;多项式;统计中图法分类号:TP181文献标识码:A文章编号:1000-7024(2006)24-4746-03WayoftextclassificationbasedonBayesLUOHai-fei,WUGang,YANGJin-sheng(SchoolofSoftwareEngineering,ShanghaiJiaotongUniversity,Shanghai200240,China)Abstract

3、:Twoimportantfactorsintextclassificationarediscussed—algorithmandfeatureabstraction.ThepracticalBayesianalgorithmhasanassumptionofstrongindependenceofdifferentpropertiesandamodifiedwayonpolynomialisintroduced.InFeatureabstraction,differentwaysofabstractingfeatures

4、arediscussedandamodifiedCHIbasedonwordweightisintroduced.Atlasttheexperimentsshowseenthatcorrectrateoftextclassificationisimproved.Keywords:textclassification;featureabstraction;Bayes;polynomial;statistic息结合在一起。在没有任何先验信息的情况下,可以采用贝0引言叶斯假设将P(M)看作均匀分布。这种情况下模型选择问题可常见的

5、分类器有简单向量距离、KNN、神经网络、贝叶斯以进一步化简为似然函数P(D

6、M)的优化问题:argmax

7、分类器等[1,3]。其中贝叶斯分类器是基于贝叶斯学习方法的分=argmax

8、。类器,其原理虽然较简单,但是其在实际应用中很成功。贝叶为了比较不同模型的优劣,通常采用贝叶斯因子12(Baye-[2,3]sianfactor):斯算法有一个很重要的假设,就是很强的属性间条件独立,12=

9、1)*

10、2。而事实上属性之间独立性很弱,为了弥补该假设的不足,在本1.1朴素贝叶斯方法文提出了一种基于多项式分布的贝叶斯方法。设训练样本集

11、分为类,记为={1,2,⋯,},则每个类文本特征的提取有词频法、互信息、CHI统计、信息增量的先验概率为,=1,2,⋯,,其值为类的样本数除以表示等方法[4~9]。本文分析了上述方法的优缺点,进而提出了训练集总样本数。对于新样本,其属于类的条件概率是一种该进型的CHI。

12、)。根据贝叶斯定理,类的后验概率为1贝叶斯方法

13、:

14、=

15、/(1)模型选择问题可以表述为在给定的数据样本和相关参数对于所有类均为常数,可以忽略,则式(1)简化为信息的条件下,寻求具有最大后验概率的模型。在给定的样

16、∝

17、*(2)本D下,某一模型M的后验概率与M

18、的先验概率和似然函为避免等于0,采用拉普阿斯概率估计数的乘积成比例,因而模型选择问题可以表示成下面的优=(1+

19、*

20、)/(

21、

22、+

23、*

24、)(3)化问题式中:

25、

26、——训练集中类的数目,

27、*

28、——训练集中属于类argmax

29、=argmax

30、的文档数,

31、*

32、——训练集包含的总文档数。在特殊情况下,贝叶斯方法下的模型选择通过选取适当的模型先验分布训练样本集中各类样本数相等,此时类的先验概率相等,式(2)P(M),可以将人类专家的知识和给定的样本数据中提供的信可以简化收稿日期:2005-11-22。作者简介:罗海飞(1979-),男,

33、湖北武汉人,硕士,研究方向为嵌入式;吴刚,男,教授,研究方向为操作系统;杨金生,男,副教授,研究方向为操作系统。-4746-

34、∝

35、(4)量空间的维数也相当大,可以达到几万维,因此我们需要进行朴素贝叶斯分类器将未知样本归于类的依据,如下维数压缩的工作,这样做的目的主要有两个:

36、=argmax{

37、*},=1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。