欢迎来到天天文库
浏览记录
ID:37062791
大小:2.50 MB
页数:83页
时间:2019-05-16
《基于云计算的基因数据预处理流程优化设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于云计算的基因数据预处理流程优化设计与实现作者姓名刘柽工程领域计算机科学技术校内指导教师董守斌教授所在学院计算机科学与工程论文提交日期2018年4月OptimizedDesignandImplementationofGeneDataPre-processingBasedonCloudComputingADissertationSubmittedfortheDegreeofMasterCandidate:LiuChengSupervisor:Prof.DongShoubinSouthChin
2、aUniversityofTechnologyGuangzhou,China分类号:TP391学校代号:10561学号:201521030738华南理工大学硕士学位论文基于云计算的基因数据预处理流程优化设计与实现作者姓名:刘柽指导教师姓名、职称:董守斌教授申请学位级别:工学硕士工程领域名称:计算机科学与技术研究方向:大数据分析与高性能计算论文提交日期:2018年4月20日论文答辩日期:2018年5月31日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:文贵华委员:董守斌郑运平张艳青董
3、敏摘要随着二代高通量测序技术的迅猛发展,基因数据的产出速度已远高于摩尔定律,并在健康医疗等领域上得到快速应用。但目前基因数据处理的时效性还难以满足需求,需要依托高性能硬件以及软件工具的支撑,以应对大规模基因数据分析的迫切需求。云计算具有超大规模、虚拟化、高可靠性、通用性、高可伸缩性等诸多优点,使用云计算可以以较低的成本解决基因数据处理所面临的问题。本文将基于Spark云计算平台,对基因数据预处理流程进行优化,以实现可利用多核与多节点并行处理基因数据,提高基因数据预处理的时效性。本文首先研究了当前基因数据
4、预处理流程的业务特点,利用业务特性,减少原有流程中读写硬盘的IO开销。对数据预处理流程中主要的两个工具即序列比对工具及重复数据标记工具进行程序结构分析,并在Spark环境下进行优化设计与实现。针对原有序列比对工具(sequencealignmenttool)BWA扩展性佳、性能好、计算密集的特点,设计了可在Spark环境中运行BWA的框架PipeBWA。通过对测序结果数据进行存储优化,使用更好的外部程序调用方式,使得该框架具有轻量级,扩展性好,可兼容任意版本BWA工具的特性。在实际基因数据集上的序列比对
5、实验表明,PipeBWA的耗时仅为目前最新的集群基因数据处理工具GATK4的三分之一。目前基因数据预处理流程中主要使用Picard工具集中的MarkDuplicates来进行重复数据标记。针对MarkDuplicates中无法对输入数据进行分割来完成数据并行,核心程序只可串行执行的特点,通过挖掘其可数据并行模块,实现了Spark上重复数据探查工具DeDuplicatesSpark。通过采用多个阶段聚合寻找候选区,以减少键值对(key-value)的规模,比对结果存储优化、key值压缩、位图索引、及Spa
6、rkSQL列式聚合等多种手段,提升DeDuplicatesSpark性能。在实际基因数据集上的查重实验表明,DeDuplicatesSpark的性能提升非常显著,相对于Picard中的MarkDuplicates工具、以及GATK4中MarkDuplicatesSpark工具均获得数十倍性能的提升。为了解决分布式存储引发的计算过程中数据不完整的问题,也为了更好的利用分布式存储所带来的性能提升,本文重新设计了分布式下测序结果数据及比对结果数据的存储格式,以保证PipeBWA与DeDuplicatesSpa
7、rk的优化设计能有效提升基因数据预处理流程的性能。实验显示,本文优化的基因数据预处理流程能有效的降低原有基因数据预I处理的耗时,为提高基因数据分析的时效性打下了良好的基础。关键词:二代测序技术;序列比对;列式存储;Spark;GATKIIAbstractWiththerapiddevelopmentoftheNext-GenerationSequencing(NGS)technologies,thesequencingspeedofgenedatahavebeenfasterthanMoore’sLaw
8、andthecostofsequencingislower.Genedatahasbeenappliedinmanyfieldslikehealthcare.However,it’sstilldifficulttomeetthedemandoftimeliness,anditreliesonthesupportofhigh-performancehardwareandsoftwaretoolstomeettheurgentneedsofla
此文档下载收益归作者所有