大数据处理:大数据概述.pdf

大数据处理:大数据概述.pdf

ID:23623563

大小:2.21 MB

页数:67页

时间:2018-11-09

大数据处理:大数据概述.pdf_第1页
大数据处理:大数据概述.pdf_第2页
大数据处理:大数据概述.pdf_第3页
大数据处理:大数据概述.pdf_第4页
大数据处理:大数据概述.pdf_第5页
资源描述:

《大数据处理:大数据概述.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据处理大数据概述1参考资料2提纲大数据的定义与特征大数据的产生和应用大数据与云计算大数据与物联网大数据处理平台的架构大数据处理流程大数据处理面临的挑战大数据关键技术大数据处理的关键问题3大数据“大数据”是时下最火热的IT行业词汇早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,明确提出“数据就是财富”,将大数据称为“第三次浪潮的华彩乐章”。第一次浪潮:农业阶段,约1万年前开始第二次浪潮:工业阶段,17世纪末开始第三次浪潮:信息化阶段,20世纪50年代后期开始“如果说IBM的主机拉开了

2、信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章。”大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。4什么是大数据数据量超过一定大小,导致常规软件无法在一个可接受的时间范围内完成对其进行抓取、管理和处理的工作的数据,例如:互联网上的网页数据社交网站上的用户交互数据物联网中产生的活动数据电信网络中的话单数据5大数据无处不在科学研究基因组LHC加速器地球与空间探测企业应用Email、文档、文件应用日志交易记录Web1.0数据文本图像视频Web2.0数据查询日志/点击流Twi

3、tter/Blog/SNSWiki6进入大数据时代2011年,中国互联网行业持有数据总量达到1.9EB(1EB字节相当于10亿GB)2011年,全球被创建和复制的数据总量为1.8ZB(1.8万亿GB)2013年,我们生成这样规模的信息量只需10分钟2015年,全球被创建和复制的数据总量将增长到8.2EB以上2020年,全球电子设备存储的数据将暴增30倍,达到35ZB7数据的度量8大数据的特征9大数据的特征-大容量Volume根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律

4、)。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。10大数据的特征-时效性Velocity从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同。11大数据的特征-多样化Variety结构化数据(Structured)VS.非结构化数据(Unstructured)结构化数据是可以用二维表结构来表示,并可存储在数据库中的数据。银行交易数据、民航航班信息非结构化

5、数据则是指那些无法通过预先定义的数据模型表述或无法存入关系型数据库表中的数据。无格式文本(网页、邮件等)、图像、音频、视频12大数据的特征-多样化Variety非结构化数据企业数据中,目前已有超过80%的数据是以非结构化的形式存在的。互联网领域,非结构化数据已占到整个数据量比例的75%以上非结构化数据年增长速度约为63%,远超过结构化数据增长速度32%。13大数据的特征-价值化Value价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的价值科学研究企业应用社会网络14

6、舍恩伯格提出的大数据三大特征舍恩伯格的《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。思维变革商业变革管理变革在舍恩伯格看来,大数据一共具有三个特征:全样而非抽样;效率而非精确;相关而非因果。15大数据的产生人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。运营式系统阶段数据库的出现使得数据管理的复杂度大大降低,数据往往伴随着一定的运营活动而产生并记录在数据库中的,这种数据的产生方式是被动的用户原创内容阶段数据爆发产生于Web2.0时代,

7、而Web2.0的最重要标志就是用户原创内容以博客、微博为代表的新型社交网络的出现和快速发展以智能手机、平板电脑为代表的新型移动设备的出现这个阶段数据的产生方式是主动的感知式系统阶段感知式系统的广泛使用这个阶段数据的产生方式是自动的16人类社会数据量第三次大的飞跃最终导致了大数据的产生大数据的应用17大数据与大规模数据的区别从对象角度看,大数据是大小超出典型数据库软件采集、储存、管理和分析等能力的数据集合。大数据并非大量数据的简单无意义的堆积,数据量大并不意味着一定具有可观的利用前景。数据间是否具有结构性和关联性,是“大

8、数据”与“大规模数据”的重要差别。从技术角度看,大数据技术是从各种各样类型的大数据中,快速获得有价值信息的技术及其集成。“大数据”这一概念中包含着对数据对象的处理行为。大数据技术是使大数据中所蕴含的价值得以发掘和展现的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。