数据重复删除:减少存储膨胀

企业数据爆炸可能会压垮存储系统,尤其是备份层。以下是重复数据删除技术的作用

数据存储需求持续增长,使备份和灾难恢复系统不堪重负,同时需要更多的在线主轴,使用更多的电力,产生更多的热量。没人指望数据增长的爆炸式增长会有所缓解。这使得IT行业不得不寻求至少能够减轻负担的技术解决方案。

一个特别适合备份和灾难恢复的解决方案是数据重复删除,它利用了业务数据中的大量冗余。消除重复数据可以根据所使用的技术和冗余程度,将所需的存储空间从10:1减少到50:1甚至更多。在数据重复数据删除的帮助下,管理员可以降低成本,减轻备份需求,并在紧急情况下加速数据恢复。

[获取在信息世界中控制你的存储的全部独家新闻"数据重复数据删除深度挖掘特别报告。|更好地管理贵公司的信息超载与我们企业数据爆炸通讯.]

重复数据删除有几种不同的形式,每种都有自己的方法和在备份和灾难恢复场景中的最佳角色。最后,几乎没有人怀疑数据重复数据删除技术将扩展到备份层之外,并将其优势应用到整个业务存储系统。但首先,让我们来看看为什么数据重复数据删除对如此多的组织如此有吸引力。

数据太多,时间太少重复的数据散布在整个企业。文件被保存到数据中心的文件共享中,其他副本位于面向Internet的FTP服务雷竞技电脑网站器上,另一个(或两个)副本位于用户的个人文件夹中。有时,在导出到另一个系统或更新到新软件之前,复制是作为备份版本进行的。用户是否擅长删除这些额外的拷贝?并非如此。

重复数据的一个典型例子是电子邮件爆炸。它是这样的:人力资源部门的某人想要向网络上的100个用户发送新的Internet可接受使用策略PDF。因此,他或她创建电子邮件,将其发送到邮件列表,附加PDF,然后按下Send。邮件服务器的存储系统中现在有100个相同的附件副本。只需要一份附件的副本,但是由于没有适当的重复数据删除系统,所有的副本都放在邮件存储区中,占用了空间。

服务器虚拟化是另一个充斥着重复数据的领域。虚拟化的整体思想是“用更少的资源做更多的事情”,并通过在一个物理服务器上运行多个虚拟机来最大化硬件利用率。这就意味着更少的硬件开销,更低的实用程序成本,以及(希望如此)更容易的管理。

每个虚拟服务器都包含在一个文件中。例如,VMware使用单个VMDK(虚拟机磁盘)文件作为虚拟机的虚拟硬盘。正如您所期望的,VMDK文件往往相当大——至少2GB,而且通常要大得多。

虚拟机的一个重要特性是管理员可以停止VM、复制VMDK文件并备份它。只要重新启动机器,就可以重新联机了。那么所有这些备份副本会发生什么呢?没错,文件服务器上存储了大量重复的文件。管理员保留着运行中的虚拟服务器的“黄金映像”,以生成新的虚拟机——更不用说备份副本了。虚拟化是一种极好的利用CPU和内存的方式,但是如果没有重复数据删除,虚拟硬盘实际上会增加网络存储需求。

紧张备份系统如何备份所有这些数据?旧的磁带备份系统速度太慢,而且缺乏所需的容量。新的高端磁带系统有性能和容量,但相当昂贵。而且,不管你的磁带机有多好,墨菲定律总是倾向于在恢复的时候把磁带都换掉。

VTLs(虚拟磁带库)提供了一种磁带的现代替代品,它使用硬盘来模拟标准磁带驱动器的配置。但代价是什么呢?额外的主轴等于额外的成本和额外的功耗。VTLs速度快,提供了可靠的备份和恢复目的地,但是如果需要备份的数据较少,那么一开始的硬件和操作成本就会更低。

数据过剩增加了灾难恢复的难度,使得近线和离线存储的每个阶段都更加昂贵。将备份的副本保存在近行存储器中可以很容易地恢复丢失或损坏的文件。但是,根据备份集的大小和管理员希望保持方便的备份集的数量,您的近行存储可能相当可观。下一层是离线存储,由磁带或其他媒体副本组成,这些磁带或副本被放入保险库或发送到其他安全位置。同样,如果数据集很大而且还在增长,则这个离线媒体集必须进行扩展以适应。

许多灾难恢复计划包括通过WAN将备份集发送到另一个地理位置。除非您的公司财力雄厚,能够负担得起非常快的WAN链接,否则最好将备份集的大小保持在最小。这对于恢复数据来说是双倍的。如果集合非常大,尝试从非站点备份进行恢复将增加停机时间和挫折。

定义数据重复删除及其好处简单地说,重复数据删除就是从存储介质或文件系统中检测和删除重复数据的过程。重复数据的检测可以在文件级、位级或块级执行,这取决于重复数据删除过程的类型和侵略性。

当重复数据删除系统第一次看到一个文件或一个文件块时,该数据元素就会被识别出来。然后,从系统中删除每个后续相同的项,但用一个小占位符标记。占位符指向数据块的第一个实例,以便在需要时重新组装已删除的数据。

这种重复数据删除过程减少了表示系统中所有索引文件所需的存储空间。例如,在每个员工的个人文件夹中有100份来自HR的相同文档的文件系统可以简化为原始文件的单个副本,再加上99个指向原始文件的小占位符。很容易看出这可以极大地减少存储需求——以及为什么备份已删除的文件系统比备份原始文件系统更有意义。

重复数据删除的另一个好处是能够在近线存储中保留更多的备份集。随着备份磁盘空间的减少,可以在磁盘上保留更多的“时间点”备份,以便更快、更容易地恢复文件。这还允许您维护更长的备份历史。用户不必恢复三个版本的文件,而是可以恢复更多版本,从而支持非常细粒度的文件备份方法,并适应备份历史记录的负载。

灾难恢复是另一个从数据重复数据删除中获益良多的过程。多年来,数据压缩是减少场外数据集总体大小的唯一方法。加入重复数据删除技术,可以进一步减少备份集。为什么每天晚上传输相同的数据集,而当天只有一小部分数据发生了变化?在灾难恢复中重复数据删除非常有意义:不仅减少了传输时间,而且广域网路的使用效率更高,总体流量更少。

在InfoWorld的免费PDF报告中了解更多关于如何管理数据重复数据删除的信息,”数据重复数据删除深度挖掘”,包括:

  • 数据重复数据删除是如何工作的
  • 比较文件级、位级和块级的重复数据删除
  • 比较源、目标和内联去重卡
  • 超越备份层

这篇文章中,“数据重复删除:减少存储膨胀”,最初发表于InfoWorld.com.关注……的最新发展信息管理在InfoWorld.com上。

阅读更多关于存储的信息在InfoWorld的存储通道中。

这篇文章,“数据重复删除:减少存储膨胀”最初由信息世界 .

加入网络世界社区有个足球雷竞技app脸谱网LinkedIn对最重要的话题发表评论。

版权©2010Raybet2

工资调查:结果在