hadoop技术基础学习资料课件.ppt

hadoop技术基础学习资料课件.ppt

ID:57383586

大小:1.77 MB

页数:20页

时间:2020-08-14

hadoop技术基础学习资料课件.ppt_第1页
hadoop技术基础学习资料课件.ppt_第2页
hadoop技术基础学习资料课件.ppt_第3页
hadoop技术基础学习资料课件.ppt_第4页
hadoop技术基础学习资料课件.ppt_第5页
资源描述:

《hadoop技术基础学习资料课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、HADOOPHadoop概述一Hadoop生态圈Hadoop构架主要组成部分及介绍123目录1Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架,程序员可以借助Hadoop编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。Hadoop还提供一个分布式文件系统(HDFS)及分布式数据库(HBase)用来将数据存储或部署到各个计算节点上。所以,可以大致认为:Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)Hadoop构架分析2

2、Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分31、HadoopHDFS是GoogleGFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Data

3、node在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分32、HadoopMapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务(ta

4、sk)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分33、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分

5、适合数据仓库的统计分析。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分34、HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储

6、的,因此用户可以给行定义各种不同的列。在HBase中数据按主键排序,同时表按主键划分为多个Hregion。Hadoop使用二登陆Hadoop集群Hadoop建表数据查询及导出Hadoop的hdfs命令1234目录2HOSTNAME133.128.88.200PORT22USERNAMEhadoop1登录hadoop集群或者通过其他机器跳转到133.128.88.200下sshhadoop@hadoop-m01或sshhadoop@133.128.88.200键入回车,输入密码。通过hive命令登陆数据库showdataba

7、ses;显示当前的所有数据库(同oracle数据库的用户);1usedw;切换数据库;登录hadoop集群showfunctions;显示所有的函数;showtables;查看当前数据库下所有的表;showtables'*tg*';模糊匹配当前数据库下所有的表;CREATEEXTERNALTABLE`tg_cdr_noinfo_fix_d`(`call_duration`int,`otherfee`double,`source_type`string,`cycle_tag`string)PARTITIONEDBY(`day

8、_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。