sql到spark查询优化机制研究

sql到spark查询优化机制研究

ID:35170163

大小:6.57 MB

页数:61页

时间:2019-03-20

sql到spark查询优化机制研究_第1页
sql到spark查询优化机制研究_第2页
sql到spark查询优化机制研究_第3页
sql到spark查询优化机制研究_第4页
sql到spark查询优化机制研究_第5页
资源描述:

《sql到spark查询优化机制研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、巧级;^2]_-.'—衛’^.fl^欠^,4撫秉巧茶,:;P硕±学位论文SQL到SPARK查询优化机制研究研究生姓名:蔡凯攘导师姓名:束爱波副教授申请学位类别工学硕±学位授予单位东南大学一级学科名称计算机科学与技术论文答辩y期2016年6月7日二级学科名称学位授予日期20年月日答辩委员会主席罗军舟教巧评阅人李伟副教授160502016年6月15日QueryOtimiza村〇田inSQLtoSarkppAThesisSubmited化SoutheastUniversityFort

2、heAcademicDegreeofMasterofEngineeringBYCaiKaizhenSupervisedbyAssociateProfessorSongAiboSchoolofComputerScience&EngineeringSoutheastUniversity,NanjingCHINAJune2016东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究^成果。尽我所知,除了文中特别加1^标注和致谢的地方外,论文中不包含其他人己经发表或撰写过

3、的研巧成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。么。'I备7'‘研究生签名:^^:名^^>日期/东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的、。复印件和电子文档,可W采用影印缩印或其他复制手段保存论文本人电子文档的内一致容和纸质论文的巧容相。除在保密期内的保密论文外,允许论文被查阅和借阅,可1^>、。论文?公布(包括1^1电子信息形式刊登)论文的全部内容或中英文摘要等部分内容的公布(包括

4、电子信息形式刊登)授权东南大学研究生院办理。■一研究生签名:师祭名:车多B期;Uj摘要摘要随着互联网的飞速发展W及各类新型互联网应用的普及,企业与研究机构面临的数据规模己经高速膨胀到了TB级乃至PB级。近些年来,伴随着内存价格的下降,为了一a进步提升大数据处理性能rk,基于内存的存储与计算逐步成为新的热点。Sp作为其中的代表一个轻量高速可拓展的分布式内,弹性分布式数据集RDD为核也,实现了ar存计算框架。然而当前Spk上层的高级查询工具SparkSQL的查询翻译没有针对多查询进行优化,批处理提交SQL查询语句被翻译为不同的Spark作业,作业之间

5、无法共享数据,无法充分发挥Spark内存计算的优势。本文针对SparkSQL存在的问题,对SQL到Spark作业查询优化机制进行了研究。本文深入分析了SparkSQL的工作流程,结合SQL查询的特点,在底层持久化文件系统与Spark核屯间加入存储中间层W解决查询间输入数据的共享问風并在复用现有分布式文件系统设计的基础上,通过合理的内存资源分配、高效的数据存储结构、低消耗的容错恢复设计优化查询数据的输入过程。在此基础上,引入多查询任务数据管理一模块对存储中间层进行管理,通过介入查询任务,实现数据的次载入、多次使用、及时释放,,并针对数据载入存储中间层时

6、面临的数据载入节点选择问题提出了基于代价模型的数据载入节点选择策略,建立了Spark作业执行代价的数学模型,对查询作业的耗费进行预估,基于代价模型选择适当的数据载入节点,实现集群资源的高效利用,提。高系统运行的效率,加快查询任务的执行速度本文在现有SparkSQL的基础上进行改化开发了SQL2Spark系统,实现了上述功-H生成测试Sark能。通过搭建实验平台,使用基准测试王具TPC数据,与现有的pSQL就査询性能进行分析比较。实验结果表明,改进后的SQL2Spark系统能够有效提高查询速度,减少磁盘I/O开销,降低内存占用,具有明显的优势。关键字

7、;Spark;Sparks化;查询优化存储中间层IABSTRACTABSTRACTWi化therapiddevelopmentofInternetandtheoularizationofnumerousnewInternetppappKcations,enterpriseandresearchinstitutebegintoencounterhugedatascale

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。