大数据项目技术选型

大数据项目技术选型

ID:69326219

大小:756.50 KB

页数:19页

时间:2022-01-02

大数据项目技术选型_第1页
大数据项目技术选型_第2页
大数据项目技术选型_第3页
大数据项目技术选型_第4页
大数据项目技术选型_第5页
大数据项目技术选型_第6页
大数据项目技术选型_第7页
大数据项目技术选型_第8页
大数据项目技术选型_第9页
大数据项目技术选型_第10页
资源描述:

《大数据项目技术选型》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、..-目录构造一、主流架构选用技术二、Hadoop版本选型方案三、选用的技术与其他工具的比照四、大数据相关的技术选型版本确定五、市场上的hadoop发行版厂商资料六、具体操作..word.zl-..-一、主流架构选用技术:采集层:flume;sqoop存储层:包括文件存储层和数据存储层文件:采用hdfs存储数据:采用hbase,redis等模型层:离线处理:mr/yarn;实时流式处理sparkstreaming(比storm的优势)分析层:hive管理层:zookeeper〔调度;ha〕..word.zl-..-二、Hadoop版本选型方案:Hadoop提供的经典方案:HDP〔H

2、adoopDataPlatform〕管理一体化数据接入FlumeScriptSQLNosqlStreamSearchIn-MemoryOthersSqoopPigHiveHbaseStormSolrSparkYARN-ReadyAppsNFS..word.zl-..---------------------------------------------------------------------------------------------------------WebHDFSYARNFalcon---------------------------------------

3、-----------------------------------------------------------------HDFS---------------------------------------------------------------------------------------------------------数据管理..word.zl-..-三、选用的技术与其他工具的比照:选用sqoop的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高..word.zl-..-选用Flume的好处:纯Java开发,框架清楚,易于开发,可以直接写h

4、dfs且支持对text和sequence压缩..word.zl-..-选用Spark的好处:基于存,适合需要屡次迭代计算的算法,在迭代处理计算方面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题平安操作认证,授权,审计,数据保护准备,管理,监控Storage:HDFSAmbariResource:YARNZookeeperAccess:HiveOoziePipeline:FalconCluster:Knox..word.zl-..-Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化四、大数据相关的技术选型版本确定:

5、操作系统:CentOS6.X各个技术版本:〔最新,最稳定,bug少〕Hadoop版本:hadoop-2.6.4.tar.gz此版本是一个相对最新且比拟稳定的版本,基数版本可能不稳定,最好选用偶数版本Zookeeper版本:zookeeper-3.4.8.tar.gz此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。Flume版本:apache-flume-1.6.0-bin.tar.gz..word.zl-..-Kafka版本:kafka_2.11-0.8.2.2.tgzkafka.apache.org/082/documentation.htm

6、lSpark版本:spark-1.6.0-bin-hadoop2.6.tgz此版本能支持Hadoop2.6.x以上的版本且相对稳定版Sqoop版本:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gzHive版本:apache-hive-1.2.1-bin.tar.gzHbase版本:hbase-1.1.3-bin.tar.gzMahout版本:apache-mahout-distribution-0.11.0.tar.gz五、市场上的hadoop发行版厂商资料:版本:除了社区的ApacheHadoop外,Cloudera,Hortonworks,M

7、apR,EMC,IBM,Intel,华为等都提供了自己的商业版本。..word.zl-..-版本容特点网址ClouderaCDH包括HDFS、YARN、HBase、MapReduce、Hive、Pig、Zookeeper、Oozie、Mahout、Hue和其他开源工具(包括实时查询引擎——Impala)。CDH完全开源,比ApacheHadoop在兼容性,平安性,稳定性上有所增强;ClouderaManager是集群的软件分发及管理监控平台,可以在几个小时部署好一个h

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。