基于Spark的地理空间大数据查询处理技术研究

基于Spark的地理空间大数据查询处理技术研究

ID:35121654

大小:2.21 MB

页数:107页

时间:2019-03-19

基于Spark的地理空间大数据查询处理技术研究_第1页
基于Spark的地理空间大数据查询处理技术研究_第2页
基于Spark的地理空间大数据查询处理技术研究_第3页
基于Spark的地理空间大数据查询处理技术研究_第4页
基于Spark的地理空间大数据查询处理技术研究_第5页
资源描述:

《基于Spark的地理空间大数据查询处理技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Spark的地理空间大数据查询处理技术研究作者姓名王晓龙指导教师姓名、职称裘雪红教授申请学位类别工学硕士万方数据万方数据学校代码10701学号1403121702分类号TP39密级公开西安电子科技大学硕士学位论文基于Spark的地理空间大数据查询处理技术研究作者姓名:王晓龙一级学科:计算机科学与技术二级学科:计算机应用技术学位类别:工学硕士指导教师姓名、职称:裘雪红教授学院:计算机学院提交日期:2017年6月万方数据万方数据ResearchofQueryProcessingTechnologyforGeospa

2、tialBigDataBasedonSparkAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsforthedegreeofMasterinComputerApplicationTechnologyByWangXiaolongSupervisor:QiuXuehongTitle:ProfessorJune2017万方数据万方数据西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的

3、论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权属于西安电

4、子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,结合学位论文研究成果完成的论文、发明专利等成果,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:万方数据万方数据摘要摘要随着信息技术飞速发展,人类已经进入大数据时代。智能手机移动应用以及各种物联网工程等产生了大量的空间数据。这其中,处理地理空间数据在这些应用中具有着重要的意义。如何快速、高效的查询、分析如此大量的空间

5、数据成为了一个巨大的挑战。Spark,一个新型的、基于内存计算的通用分布式计算框架,通过提供可以内存存储的弹性分布式数据集(RDD),在方便分布式并行程序开发的同时,突出的性能优势使得其在快速、高效处理大数据方面取得了巨大的成功。因此本文基于Spark,在充分研究空间数据查询处理相关技术的基础上,设计实现了地理空间大数据集群内存计算原型平台,并命名为GS-Spark。该平台广泛扩展了Spark,使其支持空间数据类型、空间索引以及对空间数据的高效查询分析。平台体系结构由三层构成,包括空间数据存储层、空间数据表示层以及

6、空间数据查询层。其中在空间数据存储层,实现空间数据存储,并基于R树、四叉树索引,构建了二层结构的分布式空间索引;在空间数据表示层设计了用于表示空间数据的RDD以及用于表示分布式空间索引数据的IndexGeoRDD;在空间数据查询层,基于空间数据表示层实现了范围查询、k近邻查询以及连接查询等多种重要空间查询操作。具体工作如下:(1)对平台实现过程中涉及的数据处理技术,包括空间数据分区技术、STRR树索引构建技术等进行了研究分析。(2)研究了分布式索引构建技术,设计了能够契合分布式并行编程计算模型的空间索引结构,并基于

7、Spark实现,通过实验对比,相对于其他基于Hadoop的空间索引构建程序,如SpatialHadoop,具有更高的效率。(3)深入分析了分布式范围查询、k近邻查询以及连接查询相关技术及涉及的算法,并基于Spark平台实现。通过实验对比分析,相对于当前基于Hadoop的空间数据查询分析程序SpatialHadoop,表现出了更高的性能。综上所述,GS-Spark能够完善的支持对地理空间数据的查询处理,经过初步实验分析,相对于SpatialHadoop,GS-Spark整体表现出更优的性能,尤其在应对迭代式查询分析场

8、景,更进一步体现GS-Spark性能优势。关键词:Spark,分布式计算,地理空间大数据,空间索引,空间数据查询I万方数据西安电子科技大学硕士学位论文II万方数据ABSTRACTABSTRACTWiththerapiddevelopmentofinformationtechnology,humanbeingshaveenteredtheeraofbigdat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。