大数据建模与挖掘技术

大数据建模与挖掘技术

ID:20491645

大小:238.50 KB

页数:35页

时间:2018-10-10

大数据建模与挖掘技术_第1页
大数据建模与挖掘技术_第2页
大数据建模与挖掘技术_第3页
大数据建模与挖掘技术_第4页
大数据建模与挖掘技术_第5页
资源描述:

《大数据建模与挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、**大数据建模与挖掘技术**课程内容概述大规模文件系统和Mapreduce相似项发现数据流挖掘链接分析频繁项集聚类Web广告推荐系统教材http://infolab.stanford.edu/~ullman/mmds/book.pdf大数据-互联网大规模数据挖掘与分布式处理http://netcomm.bjtu.edu.cn/****第一章数据挖掘的基本概念1·1数据挖掘的定义1.2数据挖掘的统计限制1·3相关知识数据挖掘的定义数据挖掘是数据模型的发现过程。什么是模型?统什模型:研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从

2、数据获取模型参数,验证与数据分布是附合机器学习。将数据当作某类算法的训练集训练算法。然后再用这个算法分析未知的数据**什么是模型?机器学习的长处。当对要在数据中寻找的目标一无所知的时候。如不知道是哪些因素影响人们对影片的喜好。netflix竞赛。如目标能明确描述,机器学习方法并不成功。如在web上寻找个人简历。机器学习方法.不如关键词或者短语更准确,**建模的计算方法数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。除了统计建模,其它大部分建模方法可分为如下两类对数据进行简要汇总从数据中抽取最突出的特征来代替数据并将剩余内容忽略。**数

3、据汇总pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。****特征抽取从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法:频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类

4、似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤数据挖掘的统计限制2002年,布什政府提出一项对所有数据进行挖掘的计划,没有被国会通过。目的是追逐恐怖活动问题:如果能够获得所有的数据,并且想从中获得恐怖活动的信息。是否会导致误报很多无辜的行为?**Bonferroni’sPrinciple随着数据规模的增加,任何数据都会显现出一些不同寻常的特征,这些特征看上去非常重要,实际上却并不重要。Bonferroni’sPrinciple。在数据随机性假设的基础上,计算所寻找的事件的发生的期望值,如果该期望值大于找到的真实事件的数目,则所找到的事件

5、是假象。**13关于整体情报预警的故事设有一群坏人会偶尔在酒店聚会策划阴谋想找出那些同一天在同一个酒店至少出现两次的人群.14假设109可疑人.1000days.每个人去酒店的概率1%(1000天里住10天酒店).酒店容纳100人(有105个酒店).每个人行为都是随机的。数据挖掘能发现可疑行为吗?15Calculations–(1)人员p和人员q同一天在同一个酒店出现的概率:1/1001/10010-5=10-9.人员p和q在d1和d2出现在同一个酒店的概率:10-910-9=10-18.1000天任意两天的排列组合:5105.patsome

6、hotelqatsomehotelSamehotel16Calculations–(2)人员p和q在任意两天出现在同一个酒店的概率:510510-18=510-13.可能的人数是10亿,任意两个人的排列组合是:51017.平均可疑的人员对的数目:51017510-13=250,000.实际上他们是纯随机导致的巧合17结论假设真的有10对坏人在同一个酒店出现两次.需要扫描250,010对候选人才能找出这10对坏人.这个方法好吗?18小结寻找某个性质的事件的时候(如,“两个人在同一个旅馆出现了两次”),需要考虑纯随机性是否会产生多个具有这个

7、性质的事件。19RhineParadox–(1)JosephRhine是1950年代的心理学家,他猜想某些人有超感知能力.他设计了一个实验:要求实验对象猜10张隐藏的卡片的颜色:–红或者蓝?他发现1000个人里面有1个具有超感知能力–能猜对所有10张卡片的颜色!20RhineParadox–(2)他告诉这些人他们有超能力,并要求他们再做一次同样的实验.这些人都失去了他们的超能力.为什么?见下一个幻灯片.21RhineParadox–(3)这个心理学家总结道:你不能告诉人们他们具有超能力,否则他们就会失去超能力.22Moral理解了Bonferroni

8、’s原理,能够使你不犯那个心理学家的错误1.3相关知识1.3.1词语在文档中的重要性根据文档的主题对文档进行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。