常见的hadoop十大应用误解

常见的hadoop十大应用误解

ID:21699547

大小:26.84 KB

页数:8页

时间:2018-10-23

常见的hadoop十大应用误解_第1页
常见的hadoop十大应用误解_第2页
常见的hadoop十大应用误解_第3页
常见的hadoop十大应用误解_第4页
常见的hadoop十大应用误解_第5页
资源描述:

《常见的hadoop十大应用误解》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方常见的Hadoop十大应用误解 1.       (误解)Hadoop什么都可以做(正解)当一个新技术出来时,我们都会去思考它在各个不同产业的应用,而对于平台的新技术来说,我们思考之后常会出现这样的结论“这个好像什么都能做”,然而,更深入的去想,你就会发现“好像什么都需要重头做”。对于Hadoop,我常喜欢举Database来当例子。三十年前数据库(Database)刚出来时,上面并没有什么现成的应用方案(Application),所

2、以厂商在销售的过程中常需要花很多的时间去告诉客户说,如果今天你有了这个数据库,你就可以做什么什么的应用,而看起来的确好像数据库什么应用都可以做,因为毕竟大部分的应用都会需要一个数据库。只是三十年前所有的应用都得重头打造,我们今天习以为常的ERP、CRM等应用系统,当时并不存在的,那都是后来的事了。今天的Hadoop,正好有点像当年database刚出来的时候,毕竟今天所有的应用或多或少都会开始去处理半结构、非结构化数据,而这些东西的确都是Hadoop擅长的,所以平台的适用性其实问题不大,重点还是在应用要由谁来搭建。 2.       (误解)

3、Hadoop无法扮演HPC(HighPerformanceComputing)orGridComputing的角色----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方(正解)由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成,所以我们也看到很多研究机构或教育单位,开始尝试把部分原本执行在HPC或Grid上面的任务,部分移植到Hadoop

4、集群上面,利用Hadoop兼顾高速运算与海量储存的特性,更简易且更有效率地来执行工作。目前国外高能物理、生命科学、医学等领域,都已经有这样的应用案例,利用Hadoop集群与现有的HPC/Grid搭配、协同运作,来满足不同特性的运算任务。 3.       (误解)Hadoop只能做资料分析/挖掘(DataMining/Analyst)(正解)Hadoop特别适合来数据分析与挖掘的应用是毫无疑问的,但数据分析与挖掘是难度与深度都较高的一个应用,所需要的时间的积累也比较长,也因此让一般企业对于导入Hadoop视为畏途,甚至心怀恐惧。然而,从Etu

5、知意图团队这一两年来辅导客户的经验来看,我们发现其实更多的应用,大多都在数据处理(DataProcessing)这个部分,或者更精确地来说,Hadoop这个平台,特别适合数据预处理(Datapre-Processing)这种应用场景。无论是数据仓库的负载分流(DWOffload)、数据的汇总(DataAggregation)、甚或是我们运用协同过滤算法(CollaborativeFiltering)针对线下线上零售业所做的精准推荐应用(Recommendation),广义上来看,都可以说是属于DataProcessing的一环,毕竟,BigD

6、ata的来临,我们看data、运用data的角度与方式都必须要有所改变。----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方----------专业最好文档,专业为你服务,急你所急,供你所需-------------文档下载最佳的地方l  BigData强调的不是对因果关系的渴求,取而代之的是关注于data之间的相关关系。l  也就是说,重点在于要知道“是什么”,反而未必需要知道“为什么”。l  所以,它要求的是所有data的处理,而不只是随机样本的分析。l  最后我们往往会发现,处理

7、BigData的简单算法所得到的来自于data呈现的事实,往往比分析smalldata的复杂算法所得到的来自data背后的原因,对企业带来的效益更大。我强烈推荐大家去看BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink这本书,里面把我们面对BigData该有的观点与看法,做了非常清楚的陈述,有简中的的翻译本,繁中的好像还没看到。 4.       (误解)Hadoop就是BI(BusinessIntelligence)商业智能(正解)跟前面一样,这也是大多数人最容易误解的地方

8、,因为Hadoop特别适合来做数据分析,所以就很直觉地把它想成“那就是BI嘛”。会有这种误解,主要来自于对数据运用的整体架构的不清楚。传统BI是属于数据展现层(Da

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。