大数据技术原理与应用

大数据技术原理与应用

ID:36352301

大小:4.52 MB

页数:54页

时间:2019-05-09

大数据技术原理与应用_第1页
大数据技术原理与应用_第2页
大数据技术原理与应用_第3页
大数据技术原理与应用_第4页
大数据技术原理与应用_第5页
资源描述:

《大数据技术原理与应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Chap02分布式处理软件架构Hadoophttp://dblab.xmu.edu.cn/post/bigdata提纲2.1概述2.2Hadoop项目结构2.3Hadoop的安装与使用2.4Hadoop集群的部署与使用2.2Hadoop项目结构Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统2.2Hadoop项目结构组件功能HDFS分布式文件系统MapReduce分布式并行编程模型YARN资源管理和调度器Tez运行在YARN之上的下一代Hadoop查询处理框架HiveHadoop上的数据仓库

2、HBaseHadoop上的非关系型的分布式数据库Pig一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言PigLatinSqoop用于在Hadoop与传统数据库之间进行数据传递OozieHadoop上的工作流管理系统Zookeeper提供分布式协调一致性服务Storm流计算框架Flume一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统AmbariHadoop快速部署工具,支持ApacheHadoop集群的供应、管理和监控Kafka一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的

3、网站中的所有动作流数据Spark类似于HadoopMapReduce的通用并行框架HDFS是什么分布式文件系统冗余存储面向大文件存储设计面向批量插入设计基于商用机器提供可靠的数据存储容忍部分节点故障HDFSRefercece:http://hadoop.apache.org/docs/r1.0.4/hdfs_design.htmlHDFS系统架构图Metadata(Name,replicas..)(/home/foo/data,6...NameNode元数据操作同步元数据和日志SecondaryNameNodeDFS

4、Client块操作读操作DatanodesDatanodes写操作机架另一个机架DFSClientHDFS相关术语HDFSGFSMooseFS说明NameNodeMasterMaster整个文件系统的大脑,它提供整个文件系统的目录信息,各个文件的分块信息,数据块的位置信息,并且管理各个数据服务器。DataNodeChunkServerChunkServer分布式文件系统中的每一个文件,都被切分成若务器上,此服务器称之为数据服务器。BlockChunkChunk每个文件都会被切分成若干个块(默认64MB)每一块都有连续

5、的一段文件内容是存储的基本单位。Packet无无客户端写文件的时候,不是一个字节一个字节写入文件系统的,而是累计到一定数量后,往文件个数据包。Chunk无Block(64KB)在每一个数据包中,都会将数据切成更小的块(512字节),每一个块配上一个奇偶校验码(CRC),这样的块,就是传输块。SecondaryNameNode无Metalogger备用的主控服务器,在身后默默的拉取着主控服务器的日志,等待主控服务器牺牲后被扶正。HDFS核心功能功能说明NamespaceHDFS支持传统的层次型文件组织,与大多数其他文件

6、系统类似,用户可以创建目录,并在其间创建、删除、移动和重命名文件。Shell命令Hadoop包括一系列的类shell的命令,可直接和HDFS以及其他Hadoop支持的文件系统进行交互。数据复制每个文件的block大小和replication因子都是可配置的。Replication因子可以在文件创建的时候配置,以后也可以改变。HDFS中的文件是write-one,并且严格要求在任何时候只有一个writer。机架感知在大多数情况下,replication因子是3,HDFS的存放策略是将一个副本存放在本地机架上的节点,一个

7、副本放在同一机架上的另一个节点,最后一个副本影响到数据的可靠性和有效性。放在不同机架上的一个节点。机架的错误远远比节点的错误少。EditlogFSEditLog类是整个日志体系的核心,提供了一大堆方便的日志写入API,以及日志的恢复存储等功能。集群均衡如果某个DataNode节点上的空闲空间低于特定的临界点,那么就会启动一个计划自动地将数据从一个DataNode搬移到空闲的DataNode。空间的回收删除文件并没有立刻从HDFS中删除,HDFS将这个文件重命名,并转移到/trash目录,用于恢复,/trash可设置保

8、存时间。读取文件流程1、使用HDFSClient,向远程的Namenode发起RPC请求;2、Namenode会视情况返回文件的部分或者全部block列表,对于每个block,Namenode都会返回有该block拷贝的datanode地址;3-4、HDFSClient选取离客户端最接近的datanode来读取block;5、当读完列表的blo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。