[管理学]聚类及贝叶斯分类

[管理学]聚类及贝叶斯分类

ID:40000363

大小:2.01 MB

页数:47页

时间:2019-07-16

[管理学]聚类及贝叶斯分类_第1页
[管理学]聚类及贝叶斯分类_第2页
[管理学]聚类及贝叶斯分类_第3页
[管理学]聚类及贝叶斯分类_第4页
[管理学]聚类及贝叶斯分类_第5页
资源描述:

《[管理学]聚类及贝叶斯分类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类(Cluster)聚类目的在将相似的事物归类。聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。18/17/2021聚类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据,具体找出一些能够度量数据值之间或者属性之间相似程度的量,以这些量为中心作为划分类型的依据,把一些相似程度较大的数据或属性聚合为一类,把另外一些彼此

2、之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有数据或属性都聚合完毕,把不同的类型一一划分出来。比较常用的距离有绝对值距离欧氏距离明斯基距离8/17/20214HierarchicalClustering层次聚类法该方法是利用距离矩阵作为分类标准,将n个样品各作为一类;计算n个样品两两之间的距离,构成距离矩阵;合并距离最近的两类为一新类;计算新类与当前各类的距离;再合并、计算,直至只有一类为止。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step

3、2Step1Step0agglomerative(AGNES)divisive(DIANA)K均值算法K均值(k-means)是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时,可很好地实现数据的聚类分析。基本思想(1)首先,随机选择k个数据点做为聚类中心;(2)然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化为止。8/17/20216K-MeansClusteringK-均值聚类方法Example:01234567891001234567891001234567891001234567

4、8910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassignK均值的流程由流程图可知,k-均值算法是一种基于对数据集进行划分的方法进行聚类的算法。它是不断趋于最优解的试探过程。每一次迭代都试图使簇中心的选择更加接近于数据集的实际簇中心。输出N输入读入标准化归一化初始化簇计算簇平均值更改簇中心重新决定点归何簇Y簇中心是否变化K均值算法优势(1

5、)算法简单;(2)执行和收敛过程相对较快,是一种常见的聚类算法。局限性(1)算法要求簇是密集的、簇和簇之间的差异比较大;(2)数据集的平均值的计算必须有适当的定义;(3)对于某些孤立数据和“噪声”点敏感等。NaïveBayes算法微软朴素贝叶斯算法是SAS中最简单的算法,通常用作理解数据基本分组的起点,说的简单一点就是处理数据的分类虽然该算法既可用于预测也可用于分组,但最常用于模型构建的早期阶段,更常用于分组而不是预测某个具体的值定义事件组A1,A2,…,An(n可为),称为样本空间S的一个划分,若满足:A1A2……………AnBNaïveBayes分类定理设A1,…,

6、An是S的一个划分,且P(Ai)>0,(i=1,…,n),则对任何事件BS,有式子就称为贝叶斯公式。贝叶斯定理回顾例子:已知某种疾病的发病率为0.1%,该种疾病患者一个月以内的死亡率为90%;且知未患该种疾病的人一个月以内的死亡率为0.1%;现从人群中任意抽取一人,问此人在一个月内死亡的概率是多少?若已知此人在一个月内死亡,则此人是因该种疾病致死的概率为多少?贝叶斯定理回顾贝叶斯公式给出了‘结果’事件B已发生的条件下,‘原因’属于事件Ai的条件概率.从这个意义上讲,它是一个“执果索因”的条件概率计算公式.相对于事件B而言,概率论中把P(Ai)称为先验概率(PriorP

7、robability),而把P(Ai

8、B)称为后验概率(PosteriorProbability),这是在已有附加信息(即事件B已发生)之后对事件发生的可能性做出的重新认识,体现了已有信息带来的知识更新.贝叶斯定理回顾分类问题1这个人会不会逃税?税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是分类问题2名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。