大数据分析市场行业分布ppt课件.ppt

大数据分析市场行业分布ppt课件.ppt

ID:58808465

大小:3.94 MB

页数:27页

时间:2020-10-01

大数据分析市场行业分布ppt课件.ppt_第1页
大数据分析市场行业分布ppt课件.ppt_第2页
大数据分析市场行业分布ppt课件.ppt_第3页
大数据分析市场行业分布ppt课件.ppt_第4页
大数据分析市场行业分布ppt课件.ppt_第5页
资源描述:

《大数据分析市场行业分布ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据机大数据分析市场行业分布2012年大数据分析需求行业分布政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。云展大数据机大数据采集大数据存储大数据处理大数据可视化收集网站日志,交易数据,音频视频数据,即时信息……可扩展数据采集框架数据导入元数据管理分布式大数据存储确立分析目标编写分析程序大数据并行处理引擎为分析目标生成报表,趋势图等图表生成工具大数据分析应用大数据分析平台云展大数据机—软件架构数据收集框架基于分布式文件系统的数据存储元数据管理E3大数据并行处

2、理框架SQL接口E3编程接口MapReduce接口可视化工具大数据知识库文本分析工具结构化数据分析工具云展大数据机—硬件架构标准机架式设计每个机架可容纳40台节点机节点机通过千兆以太网连接节点机采用标准PC服务器可扩展到20个机架原型机:awan(2个机架,76台节点机)云展关键技术——E3引擎E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理单元之间传递中间运算结果,最终完成整个数据处理过程。pu1

3、pu1pu1pu1pu2pu2pu3pu4pu4pu5pu5pu5云数据存储服务云数据存储服务PU–processingunit(处理单元)E3与阿帕奇Hadoop的性能比较Grep任务:每个节点535MSelect任务:每个节点1GGrep任务Select任务混合式数据分析工具同时支持非结构化的文本分析和结构化的数据库分析建立在统一的E3引擎之上,能够进行交互和联合分析支持对海量数据的快速分析,发现其中隐藏的知识、行为模式等提供描述语言,支持用户进行自定义的数据分析文本分析工具结构化数据分析工具非机构化分析工具分布式存储和处理模型无需定义表结

4、构数据直接存储与分布式文件系统中自动错误处理和恢复基本的数据访问接口put/get:随机的文档数据读取scan:批量数据扫描tokenize:将文档组织成单词组以提供给上层分析处理分析数据接口Extractoperator[ɛ]:提供基于正则表达式和字典的匹配操作Selectoperator[σ]:提供基于用户选择条件的过滤操作Joinoperator[⋈]:将来自多个数据源的文档/文字流进行合并Consolidateoperator[Ω]:去重操作提供类似于SQL的文本处理分析语言:EPQL非结构化处理流程每一个EPQL将对特定集合的文档进行

5、处理每个文档将通过4个操作的处理,然后中间结果传给连接操作和去重操作结果将是符合用户要求的文档或统计内容,比如:查找所有包含关键词:[Cloud][Computing],在2012年产生的网页统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容的文档的关联度文本分析示例:用户反馈信息分析在电子商务网站,如京东等,用户购买结束后,会对产品购买过程及产品本身进行评价,通过分析用户的反馈信息,可以发现其中的问题关键问题:发货速度慢,需要更换物流公司结构化数据分析结构化数据分析通过维护并定期更新datacube的方式来提供高效的分析查询结果根据时间

6、戳来实现同时支持实时事务处理和分析查询数据分片分布式索引技术在结构化分析工具中,系统建立多维的分布式索引以支持高效的并行查找分布式索引技术建立分布式二级索引支持并发地在多节点上同时查询可以和本地数据库索引连接例如:分布式B树索引结构,可视化工具将分析结果以报表的形式展现给用户支持线图、饼图、柱装图、趋势图等常用的图表格式标签云以及数据关联挖掘云展大数据机与其他大数据分析平台的比较云展大数据机GreenplumHDIBMBigInsights是否一体机是是否硬件架构标准标准N.A.大数据收集框架式设计手工手工元数据管理支持不支持不支持大数据存储H

7、DFSHDFSHDFS大数据处理引擎E3HadoopHadoop大数据处理接口E3,MapReduce,SQLMapReduce,HiveQLMapReduce,Jaql大数据可视化支持不支持不支持如何处理分析结果ElephantDB,支持检索、外部应用访问接口需要倒入GreenplumDatabase数据仓库文件存储,无外部应用访问接口分析案例:95598客服服务主要功能包括客户档案查询、电量电费查询、业务办理进度查询,以及业务受理、故障报修、咨询受理、投诉举报、消息订阅主要业务流程客户电话记录语音记录用户电话客户电话记录由客服人员手工录入,

8、包括:电话起止时间客户身份信息原因(归类为:电费查询、投诉、保修等几大类)简单内容概述(不完整,客户人员匆匆记录)当前的处理方式——简单的统计信息:平

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。