重复数据删除,数据的减少,共同性理,容量优化存储- 无论你怎么称呼它 - 是旨在使网络备份到磁盘的速度更快,更经济的过程。
这个想法是消除大量可咀嚼的磁盘空间的冗余数据。支持者还表示,它使您能够使更多的数据可在网上再在相同数量的磁盘。
在重复数据删除中,当数据备份到基于磁盘的虚拟磁带库(VTL)设备时,将构建数据的目录。该目录或存储库对文件或信息块中的单个数据位进行索引,为其分配元数据引用,如果需要恢复文件,该元数据引用将用于重新构建文件并将其存储在磁盘上。目录还用于后续备份,以确定哪些数据元素是惟一的。不备份非惟一数据元素;唯一的一个被提交到磁盘。
例如,20张幻灯片的PowerPoint文件最初备份。然后,用户改变了文件的单个幻灯片,保存该文件,并将其电子邮件〜10个对应。当传统的备份时,整个PowerPoint文件及其10个电子邮件发送副本备份。在重复数据删除,PowerPoint文件被修改后,只有数据的独特元素 - 单改变的滑动 - 备份,需要较少显著磁盘容量。
独立存储分析师兰迪•克恩斯(Randy Kerns)表示:“数据减少的数字非常棒。”“大多数供应商都说,如果只存储唯一更改过的数据,容量会降低20比1。”
重复数据删除技术使用了几个方法来识别的唯一信息。一些厂商使用的加密算法称为散列告诉数据是否是唯一的。该算法被施加到数据,并与先前计算出的哈希值进行比较。其它供应商,如勤奋,使用模式匹配和差分算法识别的重复数据。勤奋说,这种方法更有效,因为它不太CPU和内存密集型。
重复数据删除软件正在被部署基于磁盘的备份设备或者仿真磁带库的操作VTL箱。在设备上实现家电的重复数据删除厂商Asigra的不同,Avamar,Copan Systems公司,Data Domain的,勤奋,Exagrid和Sepaton的。供应商如ADIC(因为昆腾收购),飞康和微软对其他供应商的行业标准服务器或设备实现提供重复数据删除软件。
凯文·菲奥雷,副总裁,并在托马斯Weisel Partners的波士顿企业工程总监,已经看到重复数据删除的优势。
Fiore说:“我们希望替换我们的磁带备份环境,摆脱与磁带相关的问题。”他使用了6台数据域DD4000企业系列基于磁盘的备份设备。
“要获得备份数据的30天内在网上,我们正在寻找在有购买硬盘的60〜80兆兆字节,”菲奥雷说。“随着Data Domain的基于磁盘的设备,我们得到的最糟糕的是19:1的压缩比。在一个网站上,我们获得了39:1的压缩比。”
菲奥雷说,重复数据删除,也帮助他重新定义了他是如何对待他的数据。
“现在我们可以在线保存数据40到45天,”Fiore说。“我们需要恢复的数据——数据库或交换数据——现在在线的时间更长了,而我们无法检索的数据就不再在线了。
“另一个原因是删除重复数据是减少跨站点被复制用于灾难恢复的数据量。
位于纽约梅尔维尔的美国物理研究所的在线技术主任詹姆斯·旺德将数据备份并复制到另一个站点。
“我购买Sepaton的VTL的主要原因之一是他们的重复数据删除路线图,”Wonder说,他备份了20TB的数据。
“为了到另一个网站需要一个相当大的管道复制数据。随着Sepaton的的DeltaStor [重复数据删除技术,我们不需要有一个巨大的管道,因为我们随着时间的推移复制的数据量。”Sepaton的重复数据删除,它驻留在其S2100-ES2 VTL设备,在测试阶段,预计在12月推出。
史蒂芬Bilby,对于切诺基民族企业卡图萨,俄克拉何马州的IT主管,是Avamar的客户,谁也使用重复数据删除技术,以减少数据的他备份量。他说,他希望打造的复制能力,塔勒阔,俄克拉荷马州,明年的远程灾难恢复站点。
“共性分解减少了我们备份和复制的数据量,”比尔比说,他正在备份6TB的数据。“一旦我们完成了完整的备份以及随后的备份,我们发现我们所备份的数据减少了99%。
Dedupe分化
重复数据删除与压缩的不同之处在于,压缩只查找重复的信息模式并减少它们。Taneja集团的高级分析师Brad O ' neill提供了这样一个例子:数据模式“12341234123412341234”将被压缩为“6 1234”或6x1234——24位的五倍压缩。数据重复将导致最初的唯一数据减少到4位数字——1234——随后的备份将识别没有额外的唯一数据被传输,因此不会对其进行备份。
重复数据删除与增量备份的不同之处在于,只备份字节级的更改。在增量备份中,当整个文件或信息块发生更改时,将对它们进行备份。例如,在一个文件中,用户将单个单词“Bob”更改为“Steve”并保存该文件。当系统以增量方式备份这些数据时,不是只备份唯一的数据——“Steve”——而是备份整个文件。数据重复数据删除技术将认识到“Steve”是文件中唯一唯一的元素,因此只能对其进行备份。
目录和缓存的大小在区分重复数据删除产品时也很重要。
“重复数据删除技术的效率取决于索引的架构和大小,”O 'Neill说。“例如,勤奋花了很多时间谈论它的索引速度和大小——它很小,完全驻留在RAM中。”
重复数据删除通过两种方法进行——内联处理或后处理。使用内联处理,数据在备份时消除重复数据;在后处理中,数据在备份后进行数据删除。
分析人士说,使用这两种方法的结果没有太大差别。
内联供应商声称性能和可伸缩性;后处理供应商通常也有同样的说法。“从我看到的一切,它归结到用户的特定工作负载配置。后处理的缺点之一是可能会延长备份数据所需的时间。”
ADIC,Asigra的不同,Avamar,Data Domain的,勤奋,飞康和微软所有在线处理使用;科潘和Sepaton的使用后处理。ADIC可以使用。
|
了解更多关于这个话题
08/07/06
08/07/06
01/14/06