传统数据挖掘技术

传统数据挖掘技术

ID:27377045

大小:6.23 MB

页数:41页

时间:2018-11-30

传统数据挖掘技术_第1页
传统数据挖掘技术_第2页
传统数据挖掘技术_第3页
传统数据挖掘技术_第4页
传统数据挖掘技术_第5页
资源描述:

《传统数据挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第5章传统数据挖掘技术5.1传统的统计分析类数据挖掘技术5.2统计分析类工具5.3统计分析类工具的应用5.4统计分析类工具应用的问题练习5.1传统的统计分析类数据挖掘技术5.1.1统计与统计类数据挖掘技术1.统计与数据挖掘统计推断分析2.统计类数据挖掘技术5.1传统的统计分析类数据挖掘技术5.1.2数据的聚集与度量技术常用的聚集函数,例如,count()、sum()、avg()、max()、min()等数据中心趋势度量,可以采用算术平均值加权算术平均值。,5.1.3柱状图数据挖掘技术,序号姓名年龄收入信用评价性别1王平62一般一般女2李力53一般差男3高洁47高一般女4李强32一般差男5

2、李玲21高优良女6曾前27高一般男7武颖50低优良女8程勇46高优良男9牛兰27低优良女10高程68低优良男5.1.3柱状图数据挖掘技术,5.1.4线性回归数据挖掘技术,线形回归是最简单的回归形式。双变量回归将一个随机变量Y(称作响应变量)看作为另一个随机变量x(称为预测变量)的线形函数,即Y=α+βx(5.1)α=-β5.1.5非线性回归数据挖掘技术,双曲线模型二次曲线模型对数模型三角函数模型指数模型幂函数模型修正指数增长曲线5.1.6聚类数据挖掘技术,1.聚类分析原理﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒.﹒.﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒.﹒.

3、﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒年龄80类别1类别2类别3﹒.·﹒..﹒.·.收入60000300001500005.1.6聚类数据挖掘技术,1.聚类分析原理“孤立点”或“奇异点”“欧几里得距离”q=2“曼哈顿距离”q=1“明考斯基距离”2.分层聚类NumLabel新增率流失率numLabel新增率流失率1江苏0.520.309内蒙古0.160.082山东0.120.1210陕西0.360.103广东0.310.1111广西0.340.104海南0.390.1312吉林0.140.115辽宁0.100.1213湖北0.160.096黑龙江0.180.1214新疆自治区

4、0.260.057江西0.460.1415浙江0.360.158上海0.500.1416内蒙古9湖北13山东2辽宁5吉林12黑龙江6江西7上海8陕西10广西11广东3海南4浙江15新疆自治区14江苏1CASE0510152025LabelNum+---------+--------+--------+--------+--------+BIRCH算法引入了聚类特征和聚类特征树(CF树)概念。一个聚类特征(CF)是一个三元组,给出对象子聚类的信息汇总描述。如果某个子聚类中有N个d维的点或对象,则该子聚类的CF定义为CF=(N,LS,SS)其中,N是子类中点的数目,LS是N个点的线性和,SS是

5、数据点的平方和。如果某子聚类中有五个点(2,4)、(1,6)、(4,5)、(3,7)、(5,8),那么LS=(2+1+4+3+5,4+6+5+7+8)=(15,30),SS=(2×2+1×1+4×4+3×3+5×5,4×4+6×6+5×5+7×7+8×8)=(55,190),则可以得到CF=(5,(15,30),(55,190))。CF树中所存储的是关于聚类的信息,这些信息是计算聚类和有效利用存储的关键度量。每个叶节点包含一个或多个子聚类,每个子聚类中包含一个或多个对象。一个CF树有两个参数,即分支因子B和阀值T,分支因子定义了每个非叶节点的后代最大数目,阀值参数给出了存储在叶节点中的子聚

6、类的最大直径。BIRCH算法主要分两个阶段进行:阶段一:扫描数据库,建立一个初始的CF树,看作一个数据的多层压缩,试图保留数据内在的聚类结构。当一个对象被插入到最近的叶节点(子聚类)中时,如果在插入对象后,存储在叶节点中子聚类的直径大于阀值,那么该叶节点被分裂,也可能有其他节点被分裂。新对象插入后,关于该对象的信息向根节点传递。通过修改阀值,CF树的大小可以改变。阶段二:采用某个聚类算法对CF树的叶节点进行聚类。BIRCH算法具有可伸缩性,通过对数据集的首次扫描产生一个基本聚类,二次扫描则进一步改进聚类质量并处理孤立点。BIRCH算法处理速度较快,只是对非球形簇处理效果不好。CURE算法的

7、主要步骤如下:⑴从源数据集中抽取一个随机样本S。⑵将样本S划分为一组划分。⑶对每个划分进行局部的聚类。⑷通过随机抽样剔除孤立点。如果一个簇增长太慢,就删除该簇。⑸对局部的簇进行聚类。落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动。这些点代表了簇的形状。⑹用相应的簇标签来标记数据。3.划分聚类k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。⑴首先将所有对象随机分配到k个非空的簇中。⑵计算每个簇

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。