史上最全的“大数据”学习资源(上)

ID：30833430

大小：49.10 KB

页数：12页

时间：2019-01-03

资源描述：

《史上最全的“大数据”学习资源(上)》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、史上最全的“大数据”学习资源（上）本文章来自于阿里云云栖社区摘要：当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据，当前，整个互联网正在从IT时代向DT时代演进，大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于

2、数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据，云栖社区组织翻译了GitHubAwesomeBigData资源，供大家参考。本资源类型主要包括：大数据框架、论文等实用资源集合。在本次分享中，虎嗅网联合创始人韩祖利将为大家分享虎嗅网云上架构实践经验，包括如何打造高效图片系统、如何做好主动式缓

3、存管理，以及使用云服务的经验。同时，也会从一个老司机的角度分享如何做好系统架构设计。资源列表：· 关系数据库管理系统（RDBMS）· 框架· 分布式编程· 分布式文件系统· 文件数据模型· Key-Map 数据模型· 键-值数据模型· 图形数据模型· NewSQL数据库· 列式数据库· 时间序列数据库· 类SQL处理· 数据摄取· 服务编程· 调度· 机器学习· 基准测试· 安全性· 系统部署· 应用程序· 搜索引擎与框架· MySQL的分支和演化·

4、 PostgreSQL的分支和演化· Memcached的分支和演化· 嵌入式数据库· 商业智能· 数据可视化· 物联网和传感器· 文章· 论文· 视频关系数据库管理系统（RDBMS）· MySQL：世界最流行的开源数据库；· PostgreSQL：世界最先进的开源数据库；· Oracle 数据库：对象-关系型数据库管理系统。框架· ApacheHadoop：分布式处理架构，结合了 MapReduce（并行处理）、YARN（作业调度）和HDFS（分布式文件系统）；· Ti

5、gon：高吞吐量实时流处理框架。分布式编程· AddThisHydra ：最初在AddThis上开发的分布式数据处理和存储系统；· AMPLabSIMR：用在HadoopMapReducev1上运行Spark；· ApacheBeam：为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言；· ApacheCrunch：一个简单的JavaAPI，用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务；· ApacheDataFu：由LinkedIn开发的针对Ha

6、doopand 和Pig的用户定义的函数集合；· ApacheFlink：具有高性能的执行时间和自动程序优化；· ApacheGora：内存中的数据模型和持久性框架；· ApacheHama：BSP（整体同步并行）计算框架；· ApacheMapReduce ：在集群上使用并行、分布式算法处理大数据集的编程模型；· ApachePig ：Hadoop中，用于处理数据分析程序的高级查询语言；· ApacheREEF ：用来简化和统一低层大数据系统的保留性评估执行框架；· ApacheS

7、4 ：S4中流处理与实现的框架；· ApacheSpark ：内存集群计算框架；· ApacheSparkStreaming ：流处理框架，同时是Spark的一部分；· ApacheStorm ：Twitter流处理框架，也可用于YARN；· ApacheSamza ：基于Kafka和YARN的流处理框架；· ApacheTez ：基于YARN，用于执行任务中的复杂DAG（有向无环图）；· ApacheTwill ：基于YARN的抽象概念，用于减少开发分布式应用程序的复杂度；· Ca

8、scalog：数据处理和查询库；· Cheetah ：在MapReduce之上的高性能、自定义数据仓库；· ConcurrentCascading ：在Hadoop上的数据管理/分析框架；· DamballaParkour ：用于Clojure的MapReduce库；· DatasaltPangool ：可选择的MapReduce范例；· DataTorrentStrAM ：为实时引擎，用于以尽可能畅通的方式、最小的开支和对性能最小的影响，实现分布式、异步、实时的内存大数

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 12



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

史上最全的“大数据”学习资源(上)

史上最全的“大数据”学习资源(上)

相关文章

相关标签