基于hadoop的数据仓库技术

基于hadoop的数据仓库技术

ID:259245

大小:1.87 MB

页数:32页

时间:2017-07-15

基于hadoop的数据仓库技术_第1页
基于hadoop的数据仓库技术_第2页
基于hadoop的数据仓库技术_第3页
基于hadoop的数据仓库技术_第4页
基于hadoop的数据仓库技术_第5页
资源描述:

《基于hadoop的数据仓库技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于hadoop的数据仓库技术目录Hadoop简介HDFS(HadoopDistributedFileSystem)MapReduceHive本文的内容主要来自三篇hadoop领域的核心论文1、Hive—APetabyteScaleDataWarehouseUsingHadoop2、MapReduceandParallelDBMSs:FriendsorFoes3、Cheetah:AHighPerformance,CustomDataWarehouseonTopofMapReduce历史2002-2004:Apac

2、heNutch2004-2006:Google发表GFS和MapReduce相关论文Apache在Nutch中实现HDFS和MapReduce2006-2008:Hadoop项目从Nutch中分离2008年7月,Hadoop赢得TerabyteSortBenchmarkDougCuttingHadoop项目负责人Hadoop简介Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上

3、。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。Hadoop简介Hadoop是Apache的一个开源软件项目,由DougCutting在2004年开始开发。Hadoop是一个海量数据存储和计算的分布式系统,它由若干个成员组成,主要包括:HDFS、MapReduce、HBase、Hive

4、、Pig和ZooKeeper,其中HDFS是Google的GFS开源版本,HBase是Google的BigTable开源版本,ZooKeeper是Google的Chubby开源版本。Hadoop在大量的公司中被使用和研究Hadoop的体系架构Hadoop由以下几个部件组成:HadoopCommon:ThecommonutilitiesthatsupporttheotherHadoopsubprojects.Avro:Adataserializationsystemthatprovidesdynamicintegr

5、ationwithscriptinglanguages.Chukwa:Adatacollectionsystemformanaginglargedistributedsystems.HBase:Ascalable,distributeddatabasethatsupportsstructureddatastorageforlargetables.HDFS:Adistributedfilesystemthatprovideshighthroughputaccesstoapplicationdata.Hive:Ada

6、tawarehouseinfrastructurethatprovidesdatasummarizationandadhocquerying.MapReduce:Asoftwareframeworkfordistributedprocessingoflargedatasetsoncomputeclusters.Pig:Ahigh-leveldata-flowlanguageandexecutionframeworkforparallelcomputation.ZooKeeper:Ahigh-performance

7、coordinationservicefordistributedapplications.Hadoop的体系架构Hadoop--HDFSHDFS的结构按照GFS设计AGFSclusterconsistsofasinglemasterandmultiplechunkserversandisaccessedbymultipleclientsHDFSFault-tolerant,容错性Runoncommodityhardware,在通用的机器上运行Scalable可扩缩的http://hadoop.apache.or

8、g/hdfs/docs/current/hdfs_design.htmlhttp://labs.google.com/papers/gfs.html1个namenode多个datanodes1111HDFSNameNode存贮HDFS的元数据(metadata)管理文件系统的命名空间(namespace)创建、删除、移动、重命名文件和文件夹接收从DataNode来的Hea

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。