基于Hadoop平台的大数据应用

基于Hadoop平台的大数据应用

ID:43490088

大小:1.19 MB

页数:32页

时间:2019-10-08

基于Hadoop平台的大数据应用_第1页
基于Hadoop平台的大数据应用_第2页
基于Hadoop平台的大数据应用_第3页
基于Hadoop平台的大数据应用_第4页
基于Hadoop平台的大数据应用_第5页
资源描述:

《基于Hadoop平台的大数据应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于Hadoop平台的大数据应用1Hadoop简介2麦芽大数据平台介绍3大数据应用讨论4用户画像5机器学习简介6如何学习大数据技术DougCutting简介项目起源Hadoop由ApacheSoftwareFoundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由GoogleLab开发的Map/Reduce和GoogleFileSystem(GFS)的启发。优点高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集去年可以方便地扩展到数以千计

2、的节点中。高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Spark生态系统

3、SparkStreamingSparkSQLSparkRSparkSharkGraphxSparkMLlibTensorflowOnSparkkafkaescassandrastorms42005200620072008200920102011201220132014201520162017pighbasehiveyarnimpalahadoopzookeeperHadoop生态系统决策机器学习SparkHadoopJVM操作系统Hadoop的发行版除了社区的ApacheHadoop,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为

4、等都提供了自己的商业版本。2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括、支持、咨询服务、培训。Cloudera产品主要为CDH、ClouderaManager、ClouderaSupport。CDH是Cloudera的Hadoop发行版,完全开源,比ApacheHadoop在兼容性,安全性,稳定性上有所增强。ClouderaManager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。ClouderaSupport即是对Hadoop的技

5、术支持。Cloudera的标价为每年每个节点4000美元。2011年成立的Hortonworks。Hortonworks的主打产品是HortonworksDataPlatform(HDP),也同样是100%开源的产品,HDP除了常见的项目外还包含了Amari,一款开源的安装和管理系统。HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook开源的Hive中。定价以集群为基础,每10个节点每年为12500美元麦芽麦芽的核心竞争力:数据采集、整理、分析和应用能力麦芽精准营销:客户行为洞察,产品精准推广数据风险管理:客户评级、风险监测体系应用对收集来

6、的数据进行分析,提取有用信息、形数据分析成结论对所采集的数据,进行标签体系建设数据整理采集麦芽体系内及外部数据:客户基本信息、信用数据、运营商数据等数据采集数据资源开发是最重要的基础工作之一,是互联网金融精准营销和风险管理重要依托,需加快对对公客户、个人客户数据的采集、整理、分析和应用工作数据服务层(dubbox)服务治理安全认证高并发数据可视化层(JEECG)BI分析决策impala映射a数据存储、计算层zookeeperHBaseHivezkaSparkstreamingShell脚本流式计算层bkafka目录接口an数据源内部推送实时数据直调第三方接口数据离线数

7、据应用基于hadoop平台应用的期望能够在Hadoop平台上进行复杂的高性能计算能够在hadoop系统内能够完成支撑从数据简单易用、性价比高到信息到知识到决策的业务需要满足IT人员对数据管理和处理的要求•数据、信息、知识数据是客观事实经过获取、存储和表达后得到的结果。信息是包含上下文语境的数据。知识是对情境的理解、意识、认知、识别,以及对其复杂性的把握高等分析-优化建模和求解-时间序列预测模型的训练和应用-数据挖掘建模和模型部署实施基础数据分析-标准报表、即席分析、-仪表盘和预警、多为分析数据处理和管理-数据获取、数据清理和转化、数据管理•贷款

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。