基于Pthreads的并行DSRC压缩算法设计与实现-论文.pdf

基于Pthreads的并行DSRC压缩算法设计与实现-论文.pdf

ID:53028684

大小:234.15 KB

页数:3页

时间:2020-04-14

基于Pthreads的并行DSRC压缩算法设计与实现-论文.pdf_第1页
基于Pthreads的并行DSRC压缩算法设计与实现-论文.pdf_第2页
基于Pthreads的并行DSRC压缩算法设计与实现-论文.pdf_第3页
资源描述:

《基于Pthreads的并行DSRC压缩算法设计与实现-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第42卷第1期计算机科学Vo1.42No.12015年1月ComputerScienceJan2015基于Pthreads的并行DSRC压缩算法设计与实现詹科张云泉王婷。郑晶晶张鹏(中国科学院软件研究所并行软件与计算科学实验室北京100190)(中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190)。(广州中国科学院软件应用技术研究所广州511458)。摘要高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式。对FASTQ格式的数据进行压缩处理,能有效地节省存储空间。DSRC算法具有压缩比高的优点,因

2、此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率。基于Pthreads,实现了并行DSRC算法。测试结果表明,当使用4线程时加速比达到3.5。关键词FASTQ,数据压缩,DSRC,Pthreads中图法分类号TP317文献标识码ADOI10.11896/j.issn.1002—1372015.1.021DesignandImplementationofParallelDSRCCompressionAlgorithmBasedonPthreadsZHANKeZHANGYun-quan2WANGTing,。ZHENGJing-jin

3、gZHANGPeng(LaboratoryofParallelSoftwareandComputationalScience,ISCAS,Beijing100190,China)(StateKeyLaboratoryofComputerArchitecture,ICT,CAS,Beijing100190,China)(GuangzhouISCAS,Guangzhou511458,China)。AbstractWiththedevelopmentofhighthroughputsequencingtechnology,largevolumesofD

4、NAdataarebeinggenera-ted.TheFASTQformatiswidelyusedtostoreDNAsequence.IftheDNAsequencereadsinFASTQformatcanbecompressed,thestoragespacewillbesavedefficiently.OneoftheDSRCadvantagesisthehighcompressionratio,thereforeparallelDSRCalgorithmwillincreasetheefficiencyofcompressingth

5、eDNAsequencereadsinFASTQfor—mat.WeimplementedtheparallelDSRCalgorithmbasedonPthreads,andtheexperimentalresultsindi~tethatthepara-llelDSRCalgorithmgets3.5speedupwhenfourthreadsareused.KeywordsFASTQ,Datacompression,DSRC,Pthreads十1前言)>)))>))>)>)>))))>)))))>))))))>)>)>)))基于下一代测序技

6、术,高通量测序仪产生大量的DNA每条记录大多数情况下由4行数据组成,第1行以@起序列数据。存储器的成本虽然不断降低,但是还是不能与序始,是记录的标识符。第2行是碱基序,一般是ATCG这4列增长带来的存储开销相匹配。数据压缩可以有效地减少数个碱基重复排列,碱基之间不能有空格。第3行一般是单个据冗余,从而节省存储空间。字符“+”,也可以在“+”之后重复第1行数据,如SangerFASTQ格式是一种DNA序列的常用存储格式。主流FASTQ。第4行是质量值,与第2行的每个碱基字符对应。的高通量测序平台包括IlluminaGA和ABI公司自主研发的存储FA

7、STQ格式数据,通常需要占用大量的空问。对SOIiD测序仪。其产生的数据都是以FASTQ格式存储的,于测序深度为3O层的人基因组原始数据,FASTQ文件的大FASTQ格式也因此成了高通量测序数据存储事实上的标准小就要230G左右。按此推算,5000个测序样品就会带来PB格式。并且,FASTQ格式对FASTA格式作如下扩展:添加数量级的存储需求因此,对FASTQ格式的数据进行压缩了与序列中的每个核酸相对应的质量值。以下是FASTQ数存储,可以有效地节省存储空间。据的一条记录:对于DNA序列的FASTQ格式,G-SQZ(Genomic@ERR0006

8、25.1ILl6—1138:1:1:1786:371/2SQueeZe)算法_1]由TembeW等实现,是基于HUFFMAN算IvrCC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。