现在测试永远不会捕获时间过去的故障,直到它发生!最合适的策略是具有冗余系统并顺序更新它们。这可能会合理逻辑,但是一旦我遇到技术人员同时更新(修补)冗余系统。当我询问为什么正在使用这种明显有缺陷的策略时,我被告知这就是改变论坛决定的。推理是,由于将是停机时间,他们希望尽量减少停机时间。该策略可能是对任务的时间分析的正确性,但时间过去遭遇了折扣的风险。由于主要事件的结果停机,这使得更新以顺序方式计划。
如果更新导致冗余系统无法维护其状态,因为它们处于不同的级别,由于版本不兼容,因此除了踢您的供应商的背面到王国来说是不良的练习,那么最好让系统功能更好短时间内的限制(或否)冗余。这种策略与它相关的风险较少,而不是同时经过的问题,导致冗余系统中的主要事件。
想象一下,当发生这样的故障时,数据中心操作区域的惊喜。“别担心伴侣。没有Biggie。我们有两个人。哎呀!第二个也是重启!红色警报!SEV 1!叫醒邻居!”
当我们已经实现了锁定的原因时,我们立即让客户进行控制重启作为解决方法,之后我们有255天,在没有错误的情况下加载新代码。
课程学习:依次拼凑。现实:超级星期二习惯。补丁一切。警告:有一天会有一个重大事件海啸,由于时间过去了。