揭穿最常见的大数据备份和恢复的神话

平台提供的机制,如副本和快照不足以确保适当的数据保护和最小化停机时间

该供应商编写的技术底漆已经被网络世界编辑,以消除产品推广,但读者应该注意到它可能会倾向于提交者的做法。有个足球雷竞技app

大数据已成为重中之重对于大多数组织,这是越来越意识到核心作用的数据可以在他们的成功发挥。但公司继续奋斗着如何最好地保护,管理和分析今天的现代架构中的数据。不这样做可能会导致延长停机时间和数据丢失的可能性成本组织数百万美元。

不同于传统的数据平台(甲骨文,SQL * Server等),这是由IT专业人士管理,大数据平台(Hadoop的,卡桑德拉,Couchbase,HPE Vertica的,等)通常是由工程师或DevOps的组管理,也有一些围绕大数据备份和恢复的常见误解需要被清理。

一些最常见的误区包括:

误区1:数据的多个副本消除了对大数据的单独的备份/恢复工具的需求。大多数大数据平台创建数据的多个副本,并在不同的服务器或机架分发这些副本。这种类型的数据冗余的硬件故障的情况下保护数据。然而,任何其他情况,如用户错误,意外删除,数据损坏等都会导致数据丢失,因为这些错误或损坏迅速传播到数据的所有副本。

误区2:失落的数据可以从原始数据可以快速,轻松地重建。这实际上可能的工作,如果你仍然有所有的原始数据来重建丢失的数据。但在大多数情况下,原始数据已被删除或不容易接近。即使是可利用的,在大数据规模重建丢失的数据可能需要几个星期,耗费显著的工程资源,以及在大数据用户的停机时间延长的效果。

误区3:备份大PB级的数据是不经济的或实用的。PB级的数据的定期完整备份将需要数周时间,并且需要50万美元的基础设施投资北部。不过,也有一些事情可以做,以减轻这些问题。您可以识别数据的子集,它是有价值的组织和只备份数据。有效地采用新的备份技术,如重复数据删除存储备份,增量永远传递的变化,使用商用服务器等,也将有利于降低成本,加快备份时间。

误区4:远程灾难恢复副本可以作为一个备份副本。这是谨慎有数据的副本在远程的数据中心,以防止大规模的灾害,如火灾和地震。雷竞技电脑网站这通常是通过从生产数据中心到灾难恢复数据中心定期将数据复制完成。雷竞技电脑网站然而,在生产数据中心的所有更改会传播到灾难恢复站点,包括意外删除,数据库损坏,应用程序损雷竞技电脑网站坏,等等。因此,灾难恢复副本不能作为备份副本,因为它不具有点-in实时拷贝,你可以回滚到。

误区5:写入备份/大数据恢复脚本很容易。如果你有工程资源,数据量小,只是大数据平台的一个编写脚本可以工作。大多数组织通常有10对100层的在多个大数据平台的大数据传播的TB的。这是不容易编写,测试和维护脚本这些类型的环境。脚本具有针对正在备份的每个平台(例如,用于Hadoop的,另一个用于卡桑德拉等脚本)被写入。脚本必须在规模上进行测试,并重新测试为平台版本的变化(从升级卡桑德拉2.1〜2.2)。在某些情况下,脚本可能必须定期更新,以支持该平台的新功能,新的API,新的数据类型,等等。

大多数企业没有意识到,有写大数据平台良好的备份脚本需要显著隐性成本和专业知识。恢复过程是非常困难而且容易出错,因为它涉及到定位合适的备份拷贝,复制数据返回到适当的节点,并应用平台特定的恢复过程来恢复数据。

误区6:大数据备份/恢复操作的成本是非常小的。除了定期维护和测试脚本,也有与备份和恢复有关的额外费用。其他费用包括:

  • 人们花费:专人负责运行脚本,确保备份是成功的,调试需要时,进行专案回收率等。
  • 存储成本:花需要存储备份
  • 停机成本:在花费的时间管理员查找备份和数据恢复到理想状态

这些成本可能会显著加起来尤其是在大数据环境变得更大,更复杂。

误区7:快照对于大数据的有效备份机制。快照(在特定时间点冻结​​数据的状态)有时被用来作为备份,以防止用户错误或应用程序损坏。有使用平台或存储快照备份时的几个注意事项。

首先,快照可用于自动备份过程。然而,使用存储快照时,需要额外的手动步骤,以确保备份数据和元数据的一致性。其次,快照是有效的,当数据没有被迅速改变。随着大数据平台数据的变化率是高和技术,如压制只会增加数据的变化率。其结果是,快照需要显著的存储开销(高达50%),以保持几个时间点副本。

最后,从快照中恢复将是一个非常繁琐和手工工艺。管理员或DBA将具有识别快照文件要还原对应于需要的数据(例如密钥空间一个或表),并将其从快照恢复到集群中的它们各自的节点。在还原过程中的任何错误都可能招致永久性的数据丢失。

总之,这正在部署大数据平台和应用的企业必须认识到备份他们的数据的重要性。平台提供的机制,如副本和快照不足以确保适当的数据保护和停机最小化。适当的备份和恢复需要一定的投资,但都是值得的给出驱动商业价值的作用大数据戏剧。

组织应该意识到与发展中国家本土的解决方案相关的隐性成本和部署正确的技术来满足他们的恢复点目标(RPO)和恢复时间目标(RTO)。由于没有大数据备份/恢复解决方案是不是因为事件,如人为错误和数据损坏会发生一个选项。这是不是如果,但是当一个问题。

通过使数据始终可用,Talena屡获殊荣的软件可以帮助企业提高业务敏捷性,同时大大降低了整体的资本和运营成本。欲了解更多信息,请访问:www.talena-inc.com

加入对网络世界的社有个足球雷竞技app区Facebook的LinkedIn对那些顶级心态的话题发表评论。
有关:

版权所有©2016Raybet2

IT薪资调查:结果是