开题报告基于mapreduce的数据处理系统设计

开题报告基于mapreduce的数据处理系统设计

ID:34327367

大小:5.38 MB

页数:36页

时间:2019-03-05

开题报告基于mapreduce的数据处理系统设计_第1页
开题报告基于mapreduce的数据处理系统设计_第2页
开题报告基于mapreduce的数据处理系统设计_第3页
开题报告基于mapreduce的数据处理系统设计_第4页
开题报告基于mapreduce的数据处理系统设计_第5页
资源描述:

《开题报告基于mapreduce的数据处理系统设计》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于MapReduce的数据处理系统设计与实现指导老师:叶丹报告人:罗群日期:2011-11-30大纲1.•选题依据和意义2.•国内外研究状况分析3.•研究内容和研究方案4.•论文研究工作进展5.•下一步工作选题依据和意义-数据处理和流程Ø数据处理流程定义:使用计算机进行数据处理在各行各业中都普遍存在,在实际应用中这种数据处理通常可以刻画为对一个或多个数据记录集进行一步或多步数据处理操作的流程化处理过程,我们将这个流程化的数据处理过程称为数据处理流程。Ø数据处理流程应用实例:ü数据集成和数据仓库应用中的ETL

2、过程ü商业智能应用中的数据分析挖掘过程ü科学计算领域中的科学工作流ü搜索引擎领域中的大量分析处理过程等Ø云计算时代,实现数据处理流程面临的问题:ü海量数据的存储,分析问题OnceDQ系统的ETL流程ü云平台数据源和传统数据库数据源的数据集成问题ü数据处理操作的复杂性和多样性问题ü数据处理流程实现的编码复杂性问题1.选题依据和意义-海量数据处理数据量的高速增长需要高度可扩展和可伸缩的云计算平台和云存储系统!!!选题依据和意义-Hadoop云平台(1/2)Ø云平台Hadoop:(HDFS+MapReduce+H

3、base+Hive)淘宝Yahoo!百度,FaceBook,Google,腾讯,中国移动,Amazon,Twitter,Digg……选题依据和意义-云平台Hadoop(2/2)Ø扩容能力(Scalable):可靠地存储和处理千兆字节(PB)数据。Ø成本低(Economical):通过普通机器组成的服务器群来分发以及处理数据。Ø高效率(Efficient):在数据所在的节点上并行地处理它们,这使得处理非常的快速。Ø可靠性(Reliable):自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。Ø

4、简单性:用户只需要指定Map和Reduce两个操作,其他的由运行时系统负责。(K1,V1)(K1,V1)(K2,V2)Hadoop集群结构Hadoop体系结构(K2,V2)(K2,List(V2))(K3,V3)(K1,V1)(K2,V2)(K3,V3)(K2,List(V2))1.选题依据和意义-Hadoop数据集成淘宝FaceBook数据库,HDFS,Hive,Hbase……,怎么实现传统数据源和云平台数据源的之间的数据集成,数据交换等处理?选题依据和意义-数据处理操作多样性Ø数据源操作:数据库

5、,XML文件,平面文件,WebService,HDFS,Hbase,Hive等数据源的抽取和加载操作等Ø通用关系型操作:连接,合并,过滤,分解,分组,取样等Ø领域特定操作:数据挖掘,机器学习,数据质量,数据转换,数据清洗等如何将各种不同的数据处理操作以一种统一的方式集成到数据处理流程中,实现数据处理操作代码的重用?选题依据和意义-编码复杂性(1/3)LoadPagesFilterbyageLoadUsers假设你有一个用户数据存放在一个文件中,另外一个页面浏览数据存放在另外一个文件中,你想找到年龄段在18-2

6、5岁的用户最常查看的前5个页面?JoinonnameGrouponurlCountclicksOrderbyclicksTaketop5选题依据和意义-编码复杂性(2/3)importjava.io.IOException;}importjava.util.ArrayList;}importjava.util.Iterator;}importjava.util.List;}FileOutputFormat.setOutputPath(lfu,newPath("/user/gates/tmp/filtere

7、d_users"));lfu.setNumReduceTasks(0);JobloadUsers=newJob(lfu);importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.io.Writable;importorg.apache.hadoop.io.WritableComparable;importorg.

8、apache.hadoop.mapred.FileInputFormat;importorg.apache.hadoop.mapred.FileOutputFormat;importorg.apache.hadoop.mapred.JobConf;importorg.apache.hadoop.mapred.KeyValueTextInputFormat;importorg.apache.hadoo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。