hadoop需要哪些技术支持

hadoop需要哪些技术支持

ID:30778242

大小:164.00 KB

页数:3页

时间:2019-01-03

hadoop需要哪些技术支持_第1页
hadoop需要哪些技术支持_第2页
hadoop需要哪些技术支持_第3页
资源描述:

《hadoop需要哪些技术支持》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、hadoop是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop包含以下两个主要组件:HadoopDistributedFileSystem(I1DFS)和一个分布式计算引擎,该引擎支持以MapReduce作业的形式实现和运行程序。Hadoop还提供了软件基础架构,以一系列map和reduce任务的形式运行MapReduce作业。Map任务在输入数据的子集上调用map函数。在完成这些调用后,reduce任务开始在meip函数所生成的中间数据上调用reduce任务,生成最终的输出。map和reduce任务彼此

2、单独运行,这支持并行和容错的计算。最重要的是,Hadoop基础架构负责处理分布式处理的所有复杂方面:并行化、调度、资源管理、机器间通信、软件和硬件故障处理,等等。得益于这种干净的抽象,实现处理数百(或者甚至数千)个机器上的数TB数据的分布式应用程序从未像现在这么容易过,甚至对于之前没有使用分布式系统的经验的开发人员也是如此。maptidebdfettnf►."memory&”"丰亠匸「F伽I/pontiiom//讣I-・w*ssl►V▼▼Reducephasereducetask»Othtfr^ucnmapreduce过程图shufflecombine整体的Shuffle过程包含以卜几个

3、部分:Map端Shufflc>Sort阶段、Reduce端Shuffle。即是说:Shuffle过程横跨map和reduce两端,中间包含sort阶段,就是数据从maptask输出到reducetask输入的这段过程。sort>combine是在map端的,combine是提前的reduce,需要自己设置。Iladoop集群屮,大部分maptask与reducetask的执彳亍是在不同的节点上。当然很多情况下Reduce执行时需要跨节点去拉取其它节点上的maptask结果。如果集群正在运行的job有很多,那么task的正常执行对集群内部的网络资源消耗会很严重。而对于必要的网络资源消耗,最终

4、的目的就是最大化地减少不必要的消耗。还有在节点内,相比于内存,磁盘10对job完成时间的影响也是可观的。从最基本的要求来说,对于MapReduce的job性能调优的Shuffle过程,目标期望可以有:完整地从maptask端拉取数据到reduce端。在跨节点拉取数据时,尽可能地减少对带宽的不必要消耗。减少磁盘10对task执行的影响。总体来讲这段Shuffle过程,能优化的地方主要在于减少拉取数据的量及尽量使用内存而不是磁盘。YARNResourceManager代替集群管理器ApplicationMastcr代替一个专用且短暂的JobTipckcrNodeManager代替TaskTra

5、cker一个分布式应用程序代替一个MapReduce作业一个全局ResourceManager以主要后台进程的形式运行,它通常在专用机器上运行,在各种竞争的应用程序之间仲裁可用的集群资源。在用户提交一个应用程序时,一个称为App1icationMaster的轻量型进程实例会启动来协调应用程序内的所有任务的执行。这包括监视任务,重新启动失败的任务,推测性地运行缓慢的任务,以及计算应用程序计数器值的总和。有趣的是,ApplicationMaster可在容器内运行任何类型的任务。NodeManager是TaskTracker的一种更加普通和高效的版本。没有I占1定数量的map和reduceslo

6、ts,NodeManager拥有许多动态创建的资源容器。大数据Iladoop发厂商有AmazonWebScrviccs>Cloudera^Ilortonworks>IBM.MapR科技、华为和大快搜索。这些厂商都是基于Apache开源项目,然后增加打包、支持、集成等特性以及自己的创新等内容。大快的大数据通用计算平台(DKI1),已经集成相同版本号的开发框架的全部组件。如果在开源人数据框架上部署人快的开发框架,需要平台的组件支持如下:数据源与SQL引擎:DK.Hadoop>spark>hive>sqoop、flume、kafka数据采集:DK.hacloop数据处理模块:DK.Hadoop、

7、spark>storm、hive机器学习和AT:DK.HadoopNspark7LP模块:上传服务器端JAR包,肓接支持搜索引擎模块:不独立发布

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。