查明备份和恢复系统是否工作正常比仅仅知道备份和恢复需要多长时间要复杂得多;同意一组核心的基本度量标准是正确判断您的系统以确定它是否成功或需要重新设计的关键。
为了确保其系统满足业务需求,每个企业都应该收集以下五个指标。
储存容量及用途
让我们从一个非常基本的度量开始:您的备份系统是否有足够的存储容量来满足您当前和未来的备份和恢复需求?无论您讨论的是磁带库还是存储阵列,您的存储系统的容量都是有限的,您需要监视这个容量是多少,以及您在一段时间内使用它的百分比。
没有监控它可能会导致你被迫做出可能违反公司政策的决定。例如,在不增加购买的情况下创建额外容量的惟一方法是删除旧的备份。如果未能监控存储系统的容量导致无法满足公司设置的保留要求,那将是一件令人遗憾的事情。
基于云的对象存储可以帮助缓解这种担忧,因为一些服务提供了实质上无限的容量。
生产能力和使用情况
每个存储系统都有能力接受每天一定数量的备份,通常以兆字节/秒或tb /小时计算。您应该注意这个数字,并确保监视备份系统对它的使用。如果不这样做,可能会导致备份时间越来越长,并延长到工作日。
监视的吞吐量和使用情况磁带是特别重要的。要使备份的吞吐量与磁带驱动器传输数据的能力相匹配,这一点非常重要。具体来说,您提供给磁带驱动器的吞吐量应该大于磁带驱动器的最低速度。参考驱动器和供应商支持系统的文档,找出最小可接受速度是多少,并尽可能接近这个速度。您不太可能接近磁带驱动器的最大速度,但您也应该监视它。
计算能力和使用
备份系统的能力也取决于它背后的计算系统的能力。如果备份服务器或备份系统背后的数据库的处理能力无法跟上,那么备份速度也会变慢,导致它们在工作日大量流失。您还应该监视备份系统的性能,以了解发生这种情况的程度。
备份窗口
前两个指标非常重要,因为它们影响备份窗口:允许运行备份的时间段。如果您使用的是传统的备份系统,在备份期间会对主系统的性能产生重大影响,那么您应该事先确定备份窗口是什么。如果您即将填满整个窗口,那么是时候重新评估窗口或重新设计备份系统了。
使用增量永久备份技术的公司(例如,持续数据保护(CDP)、近CDP、块级增量备份或源重复数据删除备份)通常不需要担心备份窗口。这是因为备份运行的时间非常短,并且只传输少量的数据,这个过程通常对主系统的性能影响非常小。这就是为什么使用这类系统的客户通常一整天都在执行备份,经常是每小时一次,甚至每五分钟一次。一个真正的CDP系统实际上是连续运行的,在写入时传输每个新字节。
恢复点和恢复时间的现实
没有人真正关心你需要多长时间来备份;他们关心恢复需要多长时间。恢复时间目标(RTO)是在发生需要恢复的事件后,各方同意的恢复时间。对于任何给定的公司,可接受的RTO的长度通常是由系统崩溃时损失的金额决定的。例如,如果一个公司在停机期间每小时将损失数百万美元,那么它通常需要一个非常紧凑的RTO。例如,金融交易公司等公司希望RTO尽可能接近于零。其他能够忍受较长时间计算机停机的公司可能有一个以周为单位的RTO。重要的是RTO要符合公司的业务需求。
在整个公司中不需要有一个单一的RTO。对于更关键的应用程序使用更严格的RTO,对于其余的应用程序使用更宽松的RTO,这是完全正常和合理的雷竞技电脑网站。
恢复点目标(RPO)是大型事件后可接受的数据丢失量,以时间为单位度量。例如,如果我们同意丢失一个小时的数据,我们就同意了一个小时的RPO。然而,大多数公司的价值观要高得多,比如24小时或更长时间。这主要是因为RPO越小,运行备份系统的频率就越高。许多公司可能想要一个更严格的RPO,但是他们意识到在他们当前的备份系统中这是不可能的。与RTO一样,在整个公司中有多个rpo是完全正常的,这取决于不同数据集的临界性。
恢复点和恢复时间现实度量只有在恢复发生时才被度量——不管是真实的还是通过测试。RTO和RPO是目标,RPR和RTR度量恢复后满足这些目标的程度。度量这一点并将其与RTO和RPO进行比较,以评估是否需要重新设计您的备份和恢复系统,这一点非常重要。
现实情况是,大多数公司的RTR和RPR与公司商定的RTO和RPO相差甚远。重要的是把这个现实带到阳光下,并承认它。我们要么调整RTO和RPO,要么重新设计备份系统。如果RTR和RPR完全不同,那么使用紧凑的RTO或RPO就没有意义了。
如何处理度量标准
增加对备份系统的信心的方法之一是记录并发布这里提到的所有指标。让您的管理层知道您的备份系统按设计执行的程度。让他们知道——根据目前的增长率——他们需要多久才能购买额外的产能。最重要的是,确保他们知道你的备份和恢复系统的能力,以满足你商定的RTO和RPO。如果停机,隐藏这个事实对任何人都没有任何好处。