聚类--张宇.ppt

聚类--张宇.ppt

ID:49263344

大小:471.50 KB

页数:26页

时间:2020-02-02

聚类--张宇.ppt_第1页
聚类--张宇.ppt_第2页
聚类--张宇.ppt_第3页
聚类--张宇.ppt_第4页
聚类--张宇.ppt_第5页
资源描述:

《聚类--张宇.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类IRLAB大纲聚类分析简介层次聚类单连接和全连接聚类组平均聚类应用:改进语言模型自顶向下聚类非层次聚类K-均值EM算法什么是聚类分析?聚类:数据对象的集合在同一个类中,数据对象是相似的不同类之间的对象是不相似的聚类分析一个数据集合分组成几个聚类聚类是一种无监督分类:没有预定义的类典型应用作为一个独立的工具透视数据分布可以作为其他算法的预处理步骤聚类算法类型层次聚类与非层次聚类自底向上与自上向下(凝聚与分裂)K-均值软聚类与硬聚类K-均值模糊聚类(EM算法)层次聚类自底向下的聚类每一项自成一类迭代,将最近的两类合为一类自顶向下的聚类将所

2、有项看作一类找出最不相似的项分裂出去成为两类类的相似度度量我们可以知道两个项之间的相似度,但是聚类要求知道类与类之间的相似度三种方法:单连接方法全连接方法组平均方法非层次聚类K-均值硬聚类计算每个类的中心EM算法考虑稀疏数据公式用EM算法计算P(ci

3、w1)K-均值将n个向量分到k个类别中去选择k个初始中心计算两项距离计算均值K-均值算法EM-算法算法族以前的一个例子:前向后项算法是EM算法的一个例子可以用于任意的概率模型E(likelihood)及maxlikelihoodestimite估计模糊聚类经典的k均值聚类算法的一部迭代中,每

4、一个样本点都被认为是完全属于某一类别。模糊聚类放松这一条件,假定每个样本是模糊隶属于某一类的。每类是一个高斯分布样本集合模拟成一个高斯混合分布点集x1,……xnK个类Z为二维数组,zij为1表示xi在j类中,否则为0每个j类定义为一个高斯分布EM算法用先前的概率累加任意一项xi的概率EM算法参数给定参数下x的值EM算法找到zij的期望值并用它计算最大似然估计,反复迭代,直到收敛。EM算法我们从初始迭代直到收敛是局部最优K均值是用EM算法求解高斯混合分布的特例特点

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。