大数据及技术介绍课件.ppt

大数据及技术介绍课件.ppt

ID:58430782

大小:3.44 MB

页数:16页

时间:2020-09-07

大数据及技术介绍课件.ppt_第1页
大数据及技术介绍课件.ppt_第2页
大数据及技术介绍课件.ppt_第3页
大数据及技术介绍课件.ppt_第4页
大数据及技术介绍课件.ppt_第5页
资源描述:

《大数据及技术介绍课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、NEC信息系统(中国)有限公司2014年7月11日大数据大数据的概念介绍大数据(BigData),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能

2、Vs传统商务智能(咨询、报告等)2©NECCorporation2014大数据的构成大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击

3、流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。3©NECCorporation2014大数据引起的变革大数据时代大思维变革商业变革管理变革“更多”——不是随机样本,而是全体数据“更杂”——不是精确性,而是混杂性“更好”——不是因果关系,而是相关关系“数据化”——一切皆可“量化”“价值”——“取之不尽,用之不竭”的数据创新“角色定位”——数据、技术与思维的三足鼎立“风险”——让数据主宰一切的隐忧“掌控”——责任与自由并举的信息管理4©NECCorp

4、oration2014大数据的相关技术数据的采集数据存储与管理数据分析与挖掘结果展示ETL数据众包(CrowdCouring)结构化、非结构化和半结构化数据分布式文件系统HDFS关系数据库非关系数据库(NoSQL)数据仓库(DWH)云计算和云存储实时流处理A/B测试关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间系列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言标签云(TagCloud)聚类图(Clustergram)空间信息流(SpatialInformationFlow)热图(Heatmap)5©NECCorporation2014大数

5、据主要应用技术——Hadoop据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理“大数据”而备受重视。ApacheHadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。优点:可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济:框架可以运行在任何普通的PC上。可靠:分布式文件系统的备份恢复机

6、制以及MapReduce的任务监控保证了分布式处理的可靠性。高效:分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式,为高效处理海量的信息作了基础准备。Hadoop包括以下模块:HadoopCommon:支持其他Hadoop模块的公用工具,包括FileSystem(面向通用文件系统的抽象基类)、远程程序调用(RPC)和序列化库.Hadoop分布文件系统(HDFS™):一个为访问应用数据提供高吞吐量的分布式文件系统。HadoopYARN:一个工作调度与集群资源管理的框架HadoopMapReduce:一个基于YARN大数据集并行处理系统.Hadoop成大数

7、据的事实标准6©NECCorporation2014HDFSZooKeeperAmbari是基于Web的对Hadoop集群进行管理的工具Avro是一个数据序列化系统Mahout是一个可扩展的机器学习与数据挖掘库.Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口Chukwa是基于Hadoop的集群监控系统,由yahoo贡献hive是基于Hadoop的一个工具,提

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。