大数据处理技术简介讲课讲稿.ppt

大数据处理技术简介讲课讲稿.ppt

ID:59534728

大小:6.51 MB

页数:52页

时间:2020-11-09

大数据处理技术简介讲课讲稿.ppt_第1页
大数据处理技术简介讲课讲稿.ppt_第2页
大数据处理技术简介讲课讲稿.ppt_第3页
大数据处理技术简介讲课讲稿.ppt_第4页
大数据处理技术简介讲课讲稿.ppt_第5页
资源描述:

《大数据处理技术简介讲课讲稿.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据处理技术简介一、大数据背景我们正处在信息爆炸的年代2000年数字数据只占全球数据量的1/42007年所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google单日数据处理量超过24PBFacebook单日照片更新量超过1千万张淘宝网单日数据产生量超过5万GB大数据背景——定义大数据定义“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。大数据背景——定义数据的分类结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数

2、据。例如:二维表半结构化数据:自描述,数据结构和内容混杂在一起的数据。例如:XML、HTML等。非结构化数据:除去以上两种类型例如:音视频、图片等。大数据背景——定义2000年以后非结构化数据占绝大部分大数据背景——数据的来源从非结构化数据到结构化数据视频、音频识别技术等大数据背景——数据的来源网页爬虫视频识别语音识别等大数据背景——数据的来源传统关系数据库,如:Oracle、MYSQL无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效!如何解决?大数据处理技术的解决办法:存

3、成文件(FileSystem)大数据背景——数据的来源某搜索引擎搜索日志大数据背景——数据的来源二、大数据处理实现技术大数据处理技术面对的第一个问题如何高效存储大规模文件?大数据处理实现技术——分布式储存系统GFS/HDFS数据读取问题1T100M/SOHNO!!!大数据处理实现技术——分布式储存系统GFS/HDFS2.5小时谷歌文件系统(GFS)大数据处理实现技术——分布式储存系统GFS/HDFS分而治之大数据处理实现技术——分布式储存系统GFS/HDFS谷歌文件系统(GFS)解决方案……..10G1分30秒100M/S大数据处理实现技术——分

4、布式储存系统GFS/HDFS10G10G10G10G可靠性问题大数据处理实现技术——分布式储存系统GFS/HDFS大数据处理技术面对的第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%备份一份数据至少做三个备份大数据处理实现技术——分布式储存系统GFS/HDFS谷歌解决方案……10G10G……10G10G10G10G10G10G……10G10G10G10G10G10G心跳(HeartBeat)Master(主管)Secondarymaster(副主管)Client(用户程序)读取元数据读取数据云

5、(Cloud)Master作用:储存元数据(数据位置信息)储存节点的日常维护储存节点10G10G10G10G数据位置信息读取数据GoogleFileSystem架构大数据处理实现技术——分布式储存系统GFS/HDFS大数据处理实现技术——分布式计算模型MapReduce大数据处理技术面对的第三个问题数据运算问题分布式计算(并行计算)大数据处理实现技术——分布式储存系统GFS/HDFS谷歌解决方案谷歌提出Map/Reduce模型大数据处理实现技术——分布式计算模型MapReduceMap函数:接受一个键值对(key-valuepair),产生一组中

6、间键值对。map函数将中间键值对里键相同的值传递给Reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)大数据处理实现技术——分布式计算模型MapReduceKey-Value(键-值)模型键(Key):键必须是唯一的,而值并不一定是唯一的每个值必须与键关联,但键可以没有值必须对键进行明确定义。他决定了计数是否区分大小写(键由Hash值唯一确定)。键值对举例:通讯录中的姓名(Key)和联系方式(Value)计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value

7、)年份(Key)—温度(value)大数据处理实现技术——分布式计算模型MapReduce气象站气象数据的处理(找出最高气温)大数据处理实现技术——分布式计算模型MapReduceKey(年份)——Value(温度)大数据处理实现技术——分布式计算模型MapReduceMapReduce计算架构Map/Reduce特点开发简单无需处理线程或提供精细的同步逻辑规模大无需修改程序即可在任意规模机器上运行工作具备自动并行和分发功能用户只需写好Map和Reduce函数即可高容错失败任务在新节点上会重新运行大数据处理实现技术——分布式计算模型MapRedu

8、ceMap/Reduce的局限对迭代算法无能为力不是所有算法都能并行大数据处理实现技术——分布式计算模型MapReduce三、大数据开源

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。