朴素贝叶斯学习报告.pdf

朴素贝叶斯学习报告.pdf

ID:58314802

大小:1.02 MB

页数:9页

时间:2020-09-07

朴素贝叶斯学习报告.pdf_第1页
朴素贝叶斯学习报告.pdf_第2页
朴素贝叶斯学习报告.pdf_第3页
朴素贝叶斯学习报告.pdf_第4页
朴素贝叶斯学习报告.pdf_第5页
资源描述:

《朴素贝叶斯学习报告.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、本次报告主要学习一种基于贝叶斯定理的分类方法-朴素贝叶斯分类。从一般分类问题,及贝叶斯原理,引出朴素贝叶斯分类原理,然后探讨朴素贝叶斯在文本分类和情感分析领域的应用,最后做了基于朴素贝叶斯分类的处理情感分析的demo程序。1朴素贝叶斯分类简介朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某类别的先验概率和对象特征的在该类别下的条件概率计算出类别的后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类。2分类问题我们可能每天都在依据分类特征进行形形色色的分类,比如

2、把开豪车的人认为很有钱,把东大校园带眼镜的老头认为是教授等,用直白的话讲,就是将一些个体分到特定的类别中。那这个分类问题有没有一个逻辑上的定义呢?从数学的角度来说,可以定义如下:已知集合:C={?1,?2,…,??}和I={?1,?2,…,??},确定映射规则y=f(x),使得任意??∈?有且仅有一个??∈?使得??=?(??)成立。其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f,使得待分类项可以按照分类器进行相应分类。例如,医生对病人进行诊断就是一个典型的分类过程,任何一个医生都无法直

3、接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一个分类器,病人的病情状况根据医生来分类。3贝叶斯定理因为朴素贝叶斯分类是基于贝叶斯定理,于是我们得先谈谈贝叶斯定理。该定理是关于随机事件A和B的条件概率的一则定理。?(?

4、?)?(?)P(A

5、B)=?(?)其中P(A

6、B)是在B发生的情况下A发生的可能性。贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A

7、B),P(B

8、A)则很难直接得出,但我们更关心P(B

9、A),贝叶斯定理就为我们打通从P(A

10、B)获得P(B

11、A)的道路。这点很重要,朴素贝叶斯分类就是

12、基于这个来判断数据所归属的类别。4朴素贝叶斯分类的原理现在可以谈谈朴素贝叶斯分类了,它是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。朴素贝叶斯分类的步骤如下:1、设x={?1,

13、?2,…,??}为一个待分类项,而每个a为x的一个特征属性。2、有类别集合C={?1,?2,…,??}。3、计算所有类别的后验概率(即该对象属于任意一类的概率)?(?1

14、?),?(?2

15、?),…,?(??

16、?)。4、找出具有最大后验概率的类:yk,即?(?1

17、?)=max{?(?1

18、?),?(?2

19、?),…,?(??

20、?)},则?∈??.从以上步骤,可以得知关键是:计算出给定样本下的所属类别概率,即?(??

21、?)。根据贝叶斯定理我们需要知道?(?

22、??)的概率。4.1朴素贝叶斯为什么是‘朴素’的?朴素的原因在于该方法对条件概率分布做了条件独立性假设。这种假设使得朴素贝叶斯变得

23、异常简单。比如x由m个特征构成,即x={?1,?2,…,??}对于?(?

24、?)=?(?1,?2,…??

25、?),如果每个特征aj有Sj个取值,1<=j<=m,y的取值有K个,那么一共需要考虑的参数个数为?∏??.特别地,取SN?=1?j=S,那么参数个数为KS,当维数N很大的时候,就会发生维数灾难。为了计算它,朴素贝叶斯法对它做了条件独立性的假设:假设用于分类的特征在类确定的条件下的条件独立的,于是有:?(?

26、?)=?(?1

27、?)?(?2

28、?),…,?(??

29、?)现在参数就会大大降低为KSN(取Sj=S),因为?(?1

30、?)?(?2

31、?)…和?(??

32、?)之间是彼此条件独立的。

33、4.2类别后验概率的计算那么现在回到分类的第三步骤,来计算类别后验概率,我们可以这么做:1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。2、统计得到在各类别下各个特征属性的条件概率估计。即?(?1

34、?1)?(?2

35、?1),…,?(??

36、?1);?(?1

37、?2),…,?(??

38、?2);…;?(?1

39、??),…,?(??

40、??).3、计算类别后验概率,3.1先根据贝叶斯定理有如下推导:?(?

41、??)?(??)?(??

42、?)=?(?)因为分母对于所有类别为常数,所以我们只需计算?(?

43、??)?(?

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。