hadoop云计算技术手册

hadoop云计算技术手册

ID:7289003

大小:631.87 KB

页数:17页

时间:2018-02-10

hadoop云计算技术手册_第1页
hadoop云计算技术手册_第2页
hadoop云计算技术手册_第3页
hadoop云计算技术手册_第4页
hadoop云计算技术手册_第5页
资源描述:

《hadoop云计算技术手册》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Hadoop云计算技术手册作者:zbwd中国云计算论坛Email:xjtuzb@ieee.orgGTCRC@XJTU序言Hadoop是一个开源的分布式并行计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。Hadoop起源于DougCutting大牛领导开发的Nutch搜索引擎项目的子项目。现在是Apache软件基金会管理的开源项目。本文主要介绍Hadoop及相关技术,从Hadoop的起源开始讲述,主要涵盖了MapReduce算法思想,基本框架,运行流程和编程粒度等内容,以期给入门者提供一个关于Hadoop的技术简介

2、和研究参考。关于Hadoop的安装指南和编程范例并不在本文叙述范围内,有需要者请参考其它资料。因笔者水平实在太有限了,文中如有疏漏错误请不吝指出,万分感谢。本人资料多数来源于互联网的技术文档,附录列出引文列表,特此致谢原文作者。最后,发自内心、无与伦比地感谢Google、Apache软件基金会和DougCutting带给我们如此简约、优雅的技术。OK,让我们开始吧!去寻找那神奇的小飞象。Hadoop云计算技术介绍第2页共17页目录�引言——Hadoop从何而来�算法思想——Hadoop是怎么思考的�基本架构——Hadoop是如何构成的�运行流程—

3、—Hadoop是如何工作的�任务粒度——Hadoop是如何并行的�参考文献Hadoop云计算技术介绍第3页共17页1.引言——Hadoop从何而来自从Google工程师JeffreyDean提出MapReduce编程思想,MapReduce便在Google的各种Web应用中释放着魔力。然而,也许出于技术保密的目的,Google公司并没有透露其MapReduce的实现细节。幸运的是,DougCutting开发的Hadoop作为MapReduce开源实现,让MapReduce这么平易近人地走到了我们面前。2006年1月,DougCutting因其在开

4、源项目Nutch和Lucene的卓越表现受邀加入Yahoo公司,专职在Hadoop项目上进行开发。现在,DougCutting大牛已经加盟Cloudera(一家从事Hadoop产品商业化及技术支持的公司)。注:Hadoop名称的来历——Hadoop原本是小DougCutting的大象玩具。作为GoogleMapReduce技术的开源实现,Hadoop理所当然地借鉴了Google的GoogleFileSystem文件系统、MapReduce并行算法以及BigTable。因此,Hadoop也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇

5、。当然,这一切都是在可靠、高效、可扩展的基础上。Hadoop的可靠性——因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。Hadoop的高效性——在MapReduceHadoop云计算技术介绍第4页共17页的思想下,Hadoop是并行工作的,以加快任务处理速度。Hadoop的可扩展——依赖于部署Hadoop软件框架计算集群的规模,Hadoop的运算是可扩展的,具有处理PB级数据的能力。虽然Hadoop自身由Java语言开发,但它除了使用Java语言进行编程外,同样支持多种编程语言,

6、如C++。Hadoop的长期目标是提供世界级的分布式计算工具,也是对下一代业务(如搜索结果分析等)提供支持的Web扩展(web-scale)服务。2.算法思想——Hadoop是怎么思考的MapReduce主要反映了映射和规约两个概念,分别完成映射操作和规约操作。映射操作按照需求操作独立元素组里面的每个元素,这个操作是独立的,然后新建一个元素组保存刚生成的中间结果。因为元素组之间是独立的,所以映射操作基本上是高度并行的。规约操作对一个元素组的元素进行合适的归并。虽然有可能规约操作不如映射操作并行度那么高,但是求得一个简单答案,大规模的运行仍然可能相

7、对独立,所以规约操作也有高度并行的可能。Hadoop云计算技术介绍第5页共17页图1MapReduce把数据集的大规模操作分配到网络互联的若干节点上进行,以实现其可靠性;每个节点都会向主节点发送心跳信息,周期性地把执行进度和状态报告回来。假如某个节点的心跳信息停止发送,或者超过预定时隙,主节点标记该节点为死亡状态,并把先前分配到它的数据发送到其它节点。其中,每个操作使用命名文件的原子操作,避免并行线程之间冲突;当文件被改名时,系统可能会把它复制到任务名以外的其它名字节点上。由于规约操作的并行能力较弱,主节点尽可能把规约操作调度在同一个节点上,或者

8、距离操作数据最近(或次近,最近节点出现故障时)的节点上。MapReduce技术的优势在于对映射和规约操作的合理抽象,使得程序员在编写大规

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。