数据挖掘考试重点课件.ppt

ID：57001677

大小：279.00 KB

页数：22页

时间：2020-07-26

资源描述：

《数据挖掘考试重点课件.ppt》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、Review数据预处理度量数据的中心趋势均值(代数度量)(样本vs.总体):Note:n样本大小，N总体大小.加权算术均值:截断均值:去掉高低极端值中位数:奇数则为有序集的中间值,否则为中间两个数的平均(基于分组数据)可以插值估计众数Mode出现频率最高的值(不惟一/每个值出现一次则没有)1/2/3个众数-〉单峰的,双峰的,三峰的Empiricalformula:3闵可夫斯基距离特殊形式h=1:Manhattan(cityblock,L1norm)distance曼哈顿距离（L1范数）E.g.,theHammingdistance:thenumberofbitsthatared

2、ifferentbetweentwobinaryvectorsh=2:(L2norm)Euclideandistanceh.上确界“supremum”(Lmaxnorm,Lnorm)distance.Thisisthemaximumdifferencebetweenanycomponent(attribute)ofthevectors4Example:MinkowskiDistanceDissimilarityMatricesManhattan(L1)Euclidean(L2)Supremum5相关分析(名义数据NominalData)Χ2(chi-square)test

3、开方检验σij是(ai,bj)的观测频度（实际计数）eij是(ai,bj)的期望频度N数据元组的个数属A性a1a2iacb1Bb2jbr(A=ai,B=bj)Χ2值越大,相关的可能越大对Χ2值贡献最大的项，其实际值与期望值相差最大的相相关不意味着因果关系6Chi-Square卡方值计算:例子Χ2(chi-square)计算(括号中的值为期望计值，由两个类别的分布数据计算得到)结果表明like_fiction和play_chess关联PlaychessNotplaychessSum(row)看小说250(90)200(360)450不看小说50(210)1000(840)10

4、50Sum(col.)300120015007关联规则挖掘Apriori算法的步骤Apriori算法命名源于算法使用了频繁项集性质的先验（Prior）知识。Apriori算法将发现关联规则的过程分为两个步骤：通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。9频繁项集为了避免计算所有项集的支持度（实际上频繁项集只占很少一部分），Apriori算法引入潜在频繁项集的概念。若潜在频繁k项集的集合记为Ck，频繁k项集的集合记为Lk，m个项目构成的k项

5、集的集合为，则三者之间满足关系LkCk。构成潜在频繁项集所遵循的原则是“频繁项集的子集必为频繁项集”。10关联规则的性质性质1：频繁项集的子集必为频繁项集。性质2：非频繁项集的超集一定是非频繁的。Apriori算法运用性质1，通过已知的频繁项集构成长度更大的项集，并将其称为潜在频繁项集。潜在频繁k项集的集合Ck是指由有可能成为频繁k项集的项集组成的集合。以后只需计算潜在频繁项集的支持度，而不必计算所有不同项集的支持度，因此在一定程度上减少了计算量。11Apriori:一种候选产生-测试方法频繁项集的任何子集必须是频繁的如果{beer,diaper,nuts}是频繁的,{be

6、er,diaper}也是每个包含{beer,diaper,nuts}的事务也包含{beer,diaper}Apriori剪枝原则:如果一个项集不是频繁的,将不产生/测试它的超集!方法:由长度为k的频繁项集产生长度为(k+1)的候选项集,并且根据DB测试这些候选性能研究表明了它的有效性和可伸缩性12Apriori算法—一个例子数据库TDB第1次扫描C1L1L2C2C2第2次扫描C3L3第3次扫描TidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3It

7、emset{A,B}{A,C}{A,E}{B,C}{B,E}{C,E}Itemsetsup{A,B}1{A,C}2{A,E}1{B,C}2{B,E}3{C,E}2Itemsetsup{A,C}2{B,C}2{B,E}3{C,E}2Itemset{B,C,E}Itemsetsup{B,C,E}213分类和预测简答题：朴素贝叶斯分类的主要思想决策树分类的主要步骤选择题：SVM使用一个非线性映射把原始训练数据变换到高维空间中在新的维上,搜索线性优化分离超平面hyperplane(i.e.,“决策边

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 22



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘考试重点课件.ppt

数据挖掘考试重点课件.ppt

相关文章

相关标签