分布式结构化数据存储系统

分布式结构化数据存储系统

ID:44813774

大小:1.21 MB

页数:53页

时间:2019-10-29

分布式结构化数据存储系统_第1页
分布式结构化数据存储系统_第2页
分布式结构化数据存储系统_第3页
分布式结构化数据存储系统_第4页
分布式结构化数据存储系统_第5页
资源描述:

《分布式结构化数据存储系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、北京大学硕士研究生学位论文题目:Bighive:一个针对时间维度优化的分布式结构化数据存储系统姓名:涂启琛学号:10648182院系:信息科学与技术学院专业:计算机系统结构研究方向:计算机网络与分布式系统导师姓名:李晓明教授二00九年六月北京大学硕士学位论文版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。-52-北京大学硕士学位论文摘要“中国Web信息博物馆”(WebInfoMall)[4],是一个针对

2、中国互联网信息的搜集、存储与历史浏览服务的海量信息系统,5年来已经积累超过25亿中国互联网上出现过的网页,数据量已经超过30TB。随着数据量的持续增长,现有的Infomall存储和服务系统已不能满足要求,使得其中的数据存储和访问变得越来越困难。为解决这一问题,本文首先分析了Infomall数据特征及其访问特性。在数据上,InfoMall中网页历史数据规模庞大,具有空间和时间两个方面的维度,我们发现数据在这两个维度上无界增长,表现出高度的不平衡性。其次,在访问上,InfoMall中的所有请求都带有时间和空间两方面维度的约束。本文工作通过具体分

3、析WebInfoMall的数据和访问特点,针对访问性能优化而设计了一种带时间索引的数据存储格式TSFile,实验表明其对InfoMall数据存储和访问需求的有效性。在此基础上,我们设计并实现一个的分布式结构化数据存储系统Bighive,并评测验证了其可行性。不失一般性,本文所研究的针对时间维度优化的分布式结构化数据存储技术,不仅能处理好InfoMall中的数据,也能很好的作为一个通用的结构化数据存储系统。关键词:Bigtable、中国网页信息博物馆、分布式、结构化数据、存储系统-52-北京大学硕士学位论文Bighive:AnOptimize

4、dDistributedDataStorageSystemontimedimensionAbstractChineseWebMuseum(WebInfoMall)[4]isasystemforcrawling,storingandexhibitingallthewebpagesbeingonoroncebeenontheweb.Forthepast5years,thesystemhasstored2.5billionwebpages,andtheoveralldatasizeismorethan30TB.Asitsloadcontinues

5、growing,thestorageandaccessofdatabecomemoreandmoredifficult.Sincethecurrentsystemcannotmeetourdailyrequestduetothespecificcharacterofitsdatadistribution,anoptimizeddistributeddatastoragesystemisinurgentneed.ThepresentChineseWebMuseumhasseveralproblems.First,theoveralldatah

6、asahugesizeonbothspaceandtimedimensionswithrapidgrowth.Second,allrequeststothissystemsuffergreatlimitationsontheabove2dimensions.Toresolvetheproblemsmentionedabove,thispaperproposeabrand-newdatastorageformatcalledTSFile,qualifyitssuitablenessfortheInfoMall.Afterthat,Thepap

7、erdescribesthedesign,implementationandevaluationofBighive,anddiscussesissuesrelatedtothesystemindetail.Keywords:Bigtable,ChineseWebMuseum,DistributedSystem,StructuredData,StorageSystem-52-北京大学硕士学位论文目录第一章引言-6-1.1工作背景与动机-6-1.2问题描述-7-1.3术语定义-8-1.4本文结构-9-第二章相关工作与研究-10-2.1相关系统-

8、10-2.2近期相关研究-12-第三章数据模型与存储设计-13-3.1数据模型-13-3.1.1WebInfoMall的数据特征-13-3.1.2WebInfoMall的访问特征

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。