hadoop mapreduce教程

hadoop mapreduce教程

ID:10904771

大小:429.50 KB

页数:41页

时间:2018-07-08

hadoop mapreduce教程_第1页
hadoop mapreduce教程_第2页
hadoop mapreduce教程_第3页
hadoop mapreduce教程_第4页
hadoop mapreduce教程_第5页
资源描述:

《hadoop mapreduce教程》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、原文地址http://user.qzone.qq.com/165162897/blog/1257776641HadoopMap/Reduce教程[一]编辑

2、删除

3、权限设置

4、更多▼更多▲·设置置顶·推荐日志·转为私密日志开心延年  发表于2009年11月02日00:15阅读(10)评论(1)分类:搜索与存储权限:公开今天浏览了下hadoop的map/reduce文档,初步感觉这东西太牛逼了,听我在这里给你吹吹。你可以这样理解,假设你有很多台烂机器(假设1000台)1.利用hadoop他会帮你组装成一台超级计算机(集群),你的这台计算

5、机是超多核的(很多个CPU),一个超级大的硬盘,而且容错和写入速度都很快。2.如果你的计算任务可以拆分,那么通过map/Reduce,他可以统一指挥你的那一帮烂机器,让一堆机器帮你一起干活(并行计算),谁干什么,负责什么,他来管理,通常处理个几T的数据,只要你有机器那就小CASE。3.hadoop要分析的数据通常都是巨大的(T级),网络I/O开销不可忽视,但分析程序通常不会很大,所以他传递的是计算方法(程序),而不是数据文件,所以每次计算在物理上都是在相近的节点上进行(同一台机器或同局域网),大大降低的IO消耗,而且计算程序如果要

6、经常使用的话也是可以做缓存的。4.hadoop是一个分布式的文件系统,他就像一个管家,管理你数据的存放,在物理上较远的地方会分别存放(这样一是不同的地方读取数据都很快,也起到了异地容灾的作用),他会动态管理和调动你的数据节点,高强的容错处理,最大程度的降低数据丢失的风险。 比较著名的应用:nutch搜索引擎的蜘蛛抓取程序,数据的存储以及pageRank(网页重要程序)计算。QQ空间的日志分析处理(PV,UV) 咋样,给他吹的够牛了吧。下面是别人翻译的官方文档,经常做日志分析处理的同学可以研究下。目的这篇教程从用户的角度出发,全面地

7、介绍了HadoopMap/Reduce框架的各个方面。先决条件请先确认Hadoop被正确安装、配置和正常运行中。更多信息见:·Hadoop快速入门对初次使用者。·Hadoop集群搭建对大规模分布式集群。概述HadoopMap/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。一个Map/Reduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行

8、排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。通常,Map/Reduce框架和分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。Map/Reduce框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。master负责调度构成一个作业的所有任务,这些任

9、务分布在不同的slave上,master监控它们的执行,重新执行已经失败的任务。而slave仅负责执行由master指派的任务。应用程序至少应该指明输入/输出的位置(路径),并通过实现合适的接口或抽象类提供map和reduce函数。再加上其他作业的参数,就构成了作业配置(jobconfiguration)。然后,Hadoop的jobclient提交作业(jar包/可执行程序等)和配置信息给JobTracker,后者负责分发这些软件和配置信息给slave、调度任务并监控它们的执行,同时提供状态和诊断信息给job-client。虽然H

10、adoop框架是用JavaTM实现的,但Map/Reduce应用程序则不一定要用Java来写。·HadoopStreaming是一种运行作业的实用工具,它允许用户创建和运行任何可执行程序(例如:Shell工具)来做为mapper和reducer。·HadoopPipes是一个与SWIG兼容的C++API(没有基于JNITM技术),它也可用于实现Map/Reduce应用程序。输入与输出Map/Reduce框架运转在键值对上,也就是说,框架把作业的输入看为是一组键值对,同样也产出一组

11、,value>键值对做为作业的输出,这两组键值对的类型可能不同。框架需要对key和value的类(classes)进行序列化操作,因此,这些类需要实现Writable接口。另外,为了方便框架执行排序操作,key类必须实现WritableCompar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。