浅谈数据备份系统中的数据去重技术.pdf

浅谈数据备份系统中的数据去重技术.pdf

ID:53727947

大小:983.49 KB

页数:2页

时间:2020-04-20

浅谈数据备份系统中的数据去重技术.pdf_第1页
浅谈数据备份系统中的数据去重技术.pdf_第2页
资源描述:

《浅谈数据备份系统中的数据去重技术.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、消费电子2012年11月下ConsumerElectronicsMagazine计算机科学浅谈数据备份系统中的数据去重技术朱琦(吉林工商学院信息工程分院,长春130062)摘要:本文讨论了目前数据备份系统中的几种数据去重技术,并分析了去重技术将面临的挑战,以期对数据去重技术做一个总结和展望。关键词:数据备份;数据去重;数据碎片;去重技术中图分类号:TP309.3文献标识码:文献标识码:A文章编号:文章编号:1674-7712(2012)18-0043-01一、数据去重技术外的存储空间做缓冲区。(一)全局去重和局部去重技术。可分为全局去重和

2、局部目前,数据备份系统一般都使用在线去重技术,因为当前去重技术。全局去重主要应用在有多个去重设备的环境里,它的数据备份系统都不是实时应用系统,对存储的性能要求也不会对多个已去重的库、目标和站点进行数据的比对,然后对重高。如果是实时关键应用或对存储系统存储性能要求很高,离复数据进行删除。它可以删除多节点间的冗余数据。使用全局线去重技术更合适。去重后,如果数据从第一个节点传递到第二个节点,那么第一(四)源端去重和目标端去重技术。依据重复数据的删除个节点存储过的数据,第二个节点将不再存储。地点,数据去重可以分为源端去重技术和目标端去重技术。局部

3、去重则不考虑多个节点间的冗余数据,它仅删除同一源端去重技术即在数据的发送端,一般指客户端,对数据台机器、同一个客户端、或同一个存储节点上的冗余数据。进行查找并删除重复的数据。这种去重技术非常适合广域网宽这两种去重方式,全局去重的压缩率要比局部去重的压缩率带较低的网络环境下的备份系统,由于重复的数据不参与传输高,因为全局去重比局部去重所删除掉的重复数据要多;但是局和运输,它可以减少传输的数据量,加快数据传输。但由于源部去重的开销要比全局去重的开销少,因为全局去重需要对多个端去重需要现在发送端进行查找和删除重复数据,所以会占用存储节点上的数据

4、进行查询,删除多个节点之间存在的重复数源端机器资源,进而影响源端机器的应用性能。据,其带来的开销也会比局部去重大很多。也正是因为这一点,目标端去重即在数据的接收端、存储端,查找并删除重复很多公司,实现的全局去重所关注的存储节点数也非常有限的。的数据。由于目标端去重只需要在目标端,即服务器端对重复(二)文件级和数据块级(字节级)去重技术。根据重复数据进行查找和删除,不需要源端进行任何去重处理。因此在数据的鉴别粒度,数据去重可分为文件级的去重技术(单实例数据传输带宽较高的情况下,目标端去重更占优势。存储技术)和数据块级(字节级)去重技术。二、

5、数据去重技术面临的挑战文件级的重复数据去重技术使用哈希函数计算每个文件(一)数据去重的可扩展性尚待提高。随着数据量的不断内容的哈希值,然后根据索引检查需要备份的文件属性,并与增长,数据备份系统仍需要应对超大数据量这一问题。因此如已经存储的文件进行比较,如果两个文件的哈希值相同,则删何在多个存储节点之间快速去重仍然是热点研究问题。如何充除相同内容的文件来减少数据存储量,节约存储空间,如果哈分利用现有的存储设备、建立多层次索引、减少去重开销,快希值不同,就将其存储。速查找重复数据仍是数据去重技术面临的最大的问题。数据块级的重复数据去重技术是在

6、子文件的级别上运行(二)如何减少数据去重引起的数据碎片有待解决。数据的,主要通过删除内容相同的数据块来减少数据量。正如它的去重需要删除多个文件之间的重复数据,首先由于现有大多数名字,文件或数据流通常在这里会被分割为较小的数据块(每去重方法都倾向于利用数据冗余局部性来缓解数据去重过程个供应商检查的数据块大小不一,一些供应商固定数据块的大中所遇到的磁盘瓶颈,提高数据去重吞吐率,但是随着数据碎小,一些则使用不同大小的块,数据块的平均大小一般在片逐渐增多,备份数据流之间出现的数据冗余局部性会减弱,4KB~8KB左右),然后使用哈希函数求取每个数据

7、块的哈希值,从而导致依赖数据冗余局部性来缓解数据去重中磁盘瓶颈的这些哈希值常被称为数据块指紋。数据块指紋是用来唯一标识数据去重方法失去其有效性,严重影响数据去重的性能。一个数据块的,具有相同指紋的两个数据块即为重复数据块。其次由于数据去重的处理,一个文件产生的大量数据碎片将这两种去重技术,其中文件级的重复数据去重技术能达到导致一个文件的读取需要大量的磁盘1/0,甚至可能每读取一个的压缩率较低,因为它不能删除相似文件之间的重复数据。而数据块都需要一次磁盘1/0,大大降低了系统的数据读性能。数据块级的数据去重技术由于不仅能删除相同的文件,还能

8、删(三)数据去重技术有待规范化。数据去重方法是否有效除相似文件中的相同数据块因此有较高的压缩率,它是目前为性取决于数据集中重复数据的特征,目前有很多种数据去重方止使用最广泛的数据去重技术。但是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。