欢迎来到天天文库
浏览记录
ID:35169987
大小:2.05 MB
页数:63页
时间:2019-03-20
《基于自索引结构的高通量基因组重测序数据压缩算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于自索引结构的高通量基因组重测序数据压缩算法HIGH-THROUGHPUTGENOMERESEQUENCINGDATACOMPRESSIONALGORITHMBASEDONSELF-INDEXSTRUCTURE荣河江哈尔滨工业大学2018年6月国内图书分类号:TP39学校代码:10213国际图书分类号:004.9密级:公开工学硕士学位论文基于自索引结构的高通量基因组重测序数据压缩算法硕士研究生:荣河江导师:王亚东教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIn
2、dex:TP39U.D.C:004.9DissertationfortheMasterDegreeinEngineeringHIGH-THROUGHPUTGENOMERESEQUENCINGDATACOMPRESSIONALGORITHMBASEDONSELF-INDEXSTRUCTURECandidate:RongHejiangSupervisor:Prof.WangYadongAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:Sch
3、oolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要测序技术的进步,使得人们对基因组测序的兴趣日益增加。早期测序技术需要几年的时间来捕获30亿个核苷酸的基因组,目前新一代测序技术在数天内就可以对220亿个核苷酸的基因组进行测序。在测序速度提升的同时,测序成本也直线下降。基因组测序在个性化医疗和公共健康中日益发挥着重要的作用。越来越多的基因组测序数据在不断产生,这些数据需要进行有效的存储、传输和分
4、析。如何解决高速增长的数据与有限的存储空间的矛盾,成为重要的研究课题。DNA数据压缩为解决问题提供了一种有效思路。但由于DNA数据自身的特点,传统的压缩方法难以达到很好的压缩效果。本文针对上述问题,在前两章调研了现有的高通量数据压缩技术,并对相关的压缩算法原理和以及面临的挑战进行分析,最后提出了改进的高通量数据压缩算法。本论文做了如下几件工作:(1)调研了高通量测序数据集的存储格式,以及现有的压缩算法。分析了测序数据的生物特性,同时通过分析表明,对质量分数的有损压缩,在提高压缩性能的同时,在下游分析中还能保持较好(有时甚至更优)的性能。(2)在基于参考基因组进行差异化压缩编
5、码的方案基础上,采用垂直方向的编码方式,同时对质量数采用稀疏化处理和均值处理相结合的方式,获得较好的有损压缩性能,实验表明压缩效果更优。(3)针对数据需要随机解压缩和快速检索的需求,在分析自索引压缩技术原理的基础上,提出基于PBWT数据结构的自索引压缩技术,实验表明,自索引技术的引入,在随机解压缩上有较好的性能。本文在基于参考基因组的压缩算法基础上,提出了基于自索引结构的随机解压缩算法,在压缩效率上有一定的优势,同时可以满足局部检索和解压缩的需求。这在一定程度上可以缓解海量高通量数据的存储和传输压力,为后续相关研究提供经验和借鉴。关键词:DNA数据压缩;基于参考基因组;自索
6、引;垂直压缩-I-AbstractAbstractTherehasbeengrowinginterestingenomesequencing,drivenbyadvancementsinthesequencingtechnology.Althoughearlysequencingtechnologiesrequiredseveralyearstocapturea3billionnucleotidegenome,genomesaslargeas22billionnucleotidesarenowbeingsequencedwithindaysusingnext-generat
7、ionsequencingtechnologies.Assequencingspeedsincrease,thecostofsequencinghasplummeted.Assequencingspeedsincrease,thecostofsequencinghasplummeted.Genomesequencingplaysanimportantroleinpersonalizedmedicineandpublichealth.Moreandmoregenomicsequencingdataisconstant
此文档下载收益归作者所有