最新hadoop技术讲解ppt模版课件

最新hadoop技术讲解ppt模版课件

ID:19894585

大小:1.10 MB

页数:38页

时间:2018-10-07

最新hadoop技术讲解ppt模版课件_第1页
最新hadoop技术讲解ppt模版课件_第2页
最新hadoop技术讲解ppt模版课件_第3页
最新hadoop技术讲解ppt模版课件_第4页
最新hadoop技术讲解ppt模版课件_第5页
资源描述:

《最新hadoop技术讲解ppt模版课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Hadoop电子工业出版社刘鹏主编《云计算》教材配套课件8主要内容Hadoop项目简介HDFS体系结构HDFS关键运行机制HadoopVS.Google(分布式文件系统)HadoopAPIHadoop环境搭建Hadoop项目简介Apache的解决方案Google云计算MapReduceBigTableGFSChubbyGFS-->HDFSMapReduce-->Hadoop BigTable-->HBaseHadoop项目简介HDFS为了做到可靠性(reliability)创建了多份数据块(datablocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compu

2、tenodes),MapReduce就可以在它们所在的节点上处理这些数据了。HDFS体系结构NameNodeMasterDataNodeChunkseverHDFS关键运行机制--保障可靠性的措施一个名字节点和多个数据节点数据复制(冗余机制)--存放的位置(机架感知策略)故障检测--数据节点心跳包(检测是否宕机)块报告(安全模式下检测)数据完整性检测(校验和比较)--名字节点(日志文件,镜像文件)空间回收机制HDFS关键运行机制--写文件流程客户端缓存流水线复制并发写控制流程:1.客户端把数据缓存到本地临时文件夹2.临时文件夹数据超过64M,客户端联系NameNode,NameNo

3、de分配DataNode,DataNode依照客户端的位置被排列成一个有着最近物理距离和最小的序列3.与序列的第一个数据服务器建立Socket连接,发送请求头,然后等待回应,依次下传,客户端得到回包,流水线建立成功,4.正式发送数据,以4K为大小传送HDFS关键运行机制--读文件流程客户端联系NameNode,得到所有数据块信息,以及数据块对应的所有数据服务器的位置信息尝试从某个数据块对应的一组数据服务器中选出一个,进行连接(选取算法未加入相对位置的考虑)数据被一个包一个包发送回客户端,等到整个数据块的数据都被读取完了,就会断开此链接,尝试连接下一个数据块对应的数据服务器,整个流程,依

4、次如此反复,直到所有想读的都读取完了为止HadoopVS.Google技术架构的比较数据结构化管理组件:Hbase→BigTable并行计算模型:MapReduce→MapReduce分布式文件系统:HDFS→GFSHadoop缺少分布式锁服务ChubbyHBaseMapReduceHDFSBigTableMapReduceGFSHadoop云计算应用ChubbyGoogle云计算应用HadoopVS.GoogleHDFS与GFS比较中心服务器模式的差异GFS:多台物理服务器,选择一台对外服务,损坏时可选择另外一台提供服务HDFS:单一中心服务器模式,存在单点故障原因:Hadoop缺少

5、分布式锁服务HadoopVS.GoogleHDFS与GFS比较子服务器管理模式差异GFS:ChunkServer在Chubby中获取独占锁表示其生存状态,Master通过轮询这些独占锁获知ChunkServer的生存状态HDFS:DataNode通过心跳的方式告知NameNode其生存状态GFS中,Master损坏时,替补服务器可以快速获知ChunkServer的状态HDFS中,NameNode损坏后,NameNode恢复时需要花费一段时间获知DataNode的状态在添加数据存储节点时,GFS的伸缩性较HDFS要好原因:Hadoop缺乏分布式锁服务HadoopVS.GoogleHDFS

6、与GFS比较HDFS具备安全模式获知数据块副本状态,若副本不足,则拷贝副本至安全数目(如3个)GFS不具备安全模式副本损坏处理:API读取副本失败时,Master负责发起拷贝任务HadoopVS.GoogleHDFS与GFS比较HDFS具备空间回收机制文件删除时,仅删除目录结构实际数据的删除在等待一段时间后实施优点:便于恢复文件HDFSAPIHadoopAPI被分成(divideinto)如下几种主要的包(package):org.apache.hadoop.conf定义了系统参数的配置文件处理API。org.apache.hadoop.fs定义了抽象的文件系统API。org.apac

7、he.hadoop.HdfsHDFS,Hadoop的分布式文件系统实现。org.apache.hadoop.io定义了通用的I/OAPI,用于针对网络,数据库,文件等数据对象做读写操作。org.apache.hadoop.ipc用于网络服务端和客户端的工具,封装了网络异步I/O的基础模块。org.apache.hadoop.mapreduceHadoop分布式计算系统(MapReduce)模块的实现,包括任务的分发调度等。org.apache.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。