亚马逊AWS基于AWS云平台上实时数据分析最佳实践分享

亚马逊AWS基于AWS云平台上实时数据分析最佳实践分享

ID:36349682

大小:3.04 MB

页数:33页

时间:2019-05-09

亚马逊AWS基于AWS云平台上实时数据分析最佳实践分享_第1页
亚马逊AWS基于AWS云平台上实时数据分析最佳实践分享_第2页
亚马逊AWS基于AWS云平台上实时数据分析最佳实践分享_第3页
亚马逊AWS基于AWS云平台上实时数据分析最佳实践分享_第4页
亚马逊AWS基于AWS云平台上实时数据分析最佳实践分享_第5页
资源描述:

《亚马逊AWS基于AWS云平台上实时数据分析最佳实践分享》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于AWS云平台上的实时数据分析最佳实践分享庄富任产品拓展, AWS中國BusinessDevelopmentManagerAWS 基于云的完整大数据服务实时数据流

2、大规模存储

3、大集群并行计算采集处理海DynamoDB EMREC2量数Kinesis 据S3Redshi5Data PipelineGlacierAWS上的一些大数据客户大数据挑战收集存储分析洞察长期4TB归档每天Glacier S3数据挖掘数据Hadoop实时数据采集仓库KinesisRedshi5实时数据流处理使用案例对于广告平台用户在互联网上的行为能实时的影响其广告推送内容,在用户下

4、一次刷新页面时,就提供给用户新的广告对于电商用户的每一次收藏、点击、购买行为,都能被快速的归入他的个人模型中,立刻修正商品推荐对于社交网络用户社交图谱的变更和发言等行为,也能快速被反映在他的好友推荐、热门话题提醒上。大数据收集和存储收集存储分析洞察典型的实时动态数据流处理架构和工作流程例如使用Apache 开源工具架构1)数据采集2)数据接入3)流式计算负责从各节点上实时采由于采集数据的速度和对采集到的数据进行集数据数据处理的速度不一定实时分析例如选用flume同步,因此添加一个消例如选用apache(cloudera)来实现息中间件来作为缓冲的s

5、torm(twitter)例如选用apache的kafka(LinkedIn)Client/Sensor Aggregator ConDnuousStorage AnalyDcs + Processing  ReporDng    数据采集AmazonEC2服务器上搭建收集器(Kafka,Fluentd,Scribe和Flume等)区域从多个来源汇集数据EC2可用区A数据采集客户端无法发送数据到端点(数据收集器可靠性?) 无法立即消化大量併发事件(数据收集器吞吐量?) 区域从多个来源汇集数据EC2可用区A数据采集区域高度EC2从多个来源汇集数据伸缩可

6、用区A可靠EC2可用区B载入数据S3存储在本地磁盘容量?持久性? 区域Simple Storage Service (S3)高度可扩展无限制容量的对象存储每个对象存储达1 byte 至 5TB 容量99.999999999% 持久性EC2从多个来源可用区A汇集数据S3 EC2并行数据加载到S3存储可用区BAmazon Kinesis 实时数据流处理实时数据采集, 摄入, 传输处理实时动态数据流并行写入写出支持数据输出到不同存储目的地S3 DynamoDBAmazon  Kinesis Hadoop EMR 数据仓库Redshi> Amazon Ki

7、nesis 实时数据流处理App.1  Data Sources [Aggregate & DeAvailabilityAvailabilityAvailability‐Duplicate] ZoneZoneZone DataS3 Sources App.2 [MetricShard 1  Data ExtracDon] Shard 2  Sources Shard N DynamoDB App.3 AWS Endpoint [SlidingData Window Sources  Analysis] RedshiftApp.4  Data Sources

8、 [Machine Learning] EMR数据流Shard 分片 分片是Amazon Kinesis 数据流的基本吞吐量单位一个分片提供1MB/秒数据输入(write)容量= 1, 000 TPS 2MB/秒数据输出(read)容量=  5 TPS 实时数据流摄入简单的调用PUT 命令动态摄入数据Hay Day《卡通农场》每个分片(Shard) 可摄入每秒1MB数据(高达1000 TPS) 不停机状态下动态扩展Shard 数量Shard 1 Shard 1 AmazonShard 1 实时玩家Kinesis动作Shard N 将数据输入A

9、mazon Kinesis 数据流ProducerKinesis"PutRecord API 用于添加数据到Amazon Kinesis Producer数据流Shard1Producer"指定数据流的名称和分区键(ParOOon Key) Shard2Producer"分区键用于分配数据记录到不同的数据流分片Shard3ProducerShard4ProducerProducerProducerShardnProducer实时数据流处理Kinesis应用程序Kinesis应用程序简化实时数据流的并行处理分布式处理多Shards 实时数据流容错Amaz

10、on实时动态扩展Workers In-gameKinesisac

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。