大数据存储与处理：PPT要点&大题.doc

ID：61915764

大小：39.50 KB

页数：5页

时间：2021-03-29

资源描述：

《大数据存储与处理：PPT要点&大题.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、1.大数据：指的是所涉及的数据集规模已经超过了传统数据库软件的获取、存储、管理和分析的能力。2.大数据的产生：三个阶段：运营式系统阶段，被动存储在数据库中；用户原创内容阶段，web2.0，主动；感知式系统阶段，感知式系统的广泛使用。3.物联网架构：三层，感知层、网络层、应用层。关系：物联网，移动互联网再加上传统互联网，每天都在产生海量数据，而大数据又通过云计算的形式，将这些数据筛选处理分析，提取出有用的信息，这就是大数据分析。4.大数据存储系统的分类：分布式数据库，存储结构化数据如Spanner,Oceanbase,RDS；分布式文件系统，存储非结构化数据，如HDFS、GFS、TFS；

2、NoSQL(NotOnlySQL)数据库：键值存储，如Redis，类似Hash表，存储半结构化数据，常用于分布式缓存；列存储，如HBase、Bigtable，结构松散，单表操作，不支持多表连接。5.大数据的三大关键问题：存储(容量-NAS等、吞吐量-RAID)、计算(多核、并行)、容错。容错：数据容错、计算任务容错(故障检测、计算数据定位与获取、任务迁移)。RAID0：并行磁盘；RAID1：镜像冗余；RAID10:1+0；RAID5：校验冗余。6.Hadoop的特点：扩容能力、成本低(普通机器)、高效率(在数据所在的节点并行计算)、可靠性(冗余、自动重新部署失败任务)。缺点：用Java

3、实现，Java的IO处理虽然没有性能瓶颈，但是对于CPU密集型的任务是一个麻烦，因此，有些算法效率不会提高很多。7.进程：MasterNode：Namenode、SecendaryNamenode、Jobtracker；SlaveNode：Tasktracker、Datanode.8.MapReduce流程：把(job的)输入拆分成固定大小的splits，每个split(默认对应1个block的大小)对应一个maptask，分发到各节点→map过程(本地)：把原数据转换为键值对的形式，并去除不需要/错误的数据；每个map任务有一个内存缓冲区(100mb)，写入数据达80%时spill(

4、先在缓冲区预排序)到本地磁盘，键值对按key排列组合（sort&Combiner：一次简单的reduce，合并相同的key）→送入(其他结点)进行reduce，reduce获取map输入的过程是同步多线程进行的(copy&merge)。job：包括数据、M/R程序、配置信息。把job拆分成map和reducetasks.TaskTracker每隔3秒向JobTracker发送心跳询问有没有任务可做，如果有，让其派发任务给它执行。1.作业调度：默认先进先出FIFO；支持公平调度(支持多个队列，每个队列可配置一定的资源量，同一队列中的作业公平共享队列中所有资源)、容量/计算能力调度(多队列

5、，每个队列中FIFO，对同一用户提交的作业所占资源量进行限定)。1.Google为什么不采用传统的技术，而是mapreduce、bigtable、GFS，功能分别是什么？(1)GFS：Google特有的环境与负载需要。Google主要处理的数据如爬取的网页、访问日志，计算如词频计算、倒排索引等，特点是单个运算简单、数量庞大、数据相对独立。GFS是一种分布式文件系统，用集群方式提升系统整体容量，支持高吞吐量(顺序读写、数据存储的基本单元大)。基于大量安装有Linux操作系统的普通PC构成的集群系统，整个集群系统由一台Master（通常有几台备份）和若干台ChunkServer构成。GFS

6、中文件被分成固定大小的Chunk，分别存储在不同的ChunkServer上，每个Chunk有多份（通常为3份）拷贝，也存储在不同的ChunkServer上。Master负责维护GFS中的Metadata，即文件名及其Chunk信息。客户端先从Master上得到文件的Metadata，根据要读取的数据在文件中的位置与相应的ChunkServer通信，获取文件数据。(2)BigTable：GFS是文件系统，不适合结构化数据的存储和访问；不适合使用RDBMS,不能满足要求海量结构化数据存储需求：存储数据的多样性与复杂性、海量的处理请求、高吞吐和高并发、成本与控制力、稀疏(很多列无数据且只经常

7、访问少量)。是一种(非关系型、NoSQL)分布式数据库。是一个经过排序后的分布式的、稀疏的、多维映射表，数据以键/值映射的形式组织，数据索引由Row/ColumnKey和Timestamp组成。(3)MapReduce：PR算法需要执行行列数以亿为单位的矩阵相乘，单机运算所需的时间过长。是一种编程模型，用于大规模数据集的并行运算。把一个大的计算任务拆分成若干小的子计算任务，分发给节点上的机器并行运算，最后合并子任务的运算结果得到最终结果。2.大

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大数据存储与处理：PPT要点&大题.doc

大数据存储与处理：PPT要点&大题.doc

相关文章

相关标签