什么测试没有捕获!

我刚刚审查了一个有趣的思科的现场通知。233天运行后,MDS切换重新启动。现在想象它发生时它的惊喜。“老板,我发誓,我什么都没有,我在外面有烟雾!”

现在测试永远不会捕获时间过去的故障,直到它发生!最合适的策略是具有冗余系统并顺序更新它们。这可能会合理逻辑,但是一旦我遇到技术人员同时更新(修补)冗余系统。当我询问为什么正在使用这种明显有缺陷的策略时,我被告知这就是改变论坛决定的。推理是,由于将是停机时间,他们希望尽量减少停机时间。该策略可能是对任务的时间分析的正确性,但时间过去遭遇了折扣的风险。由于主要事件的结果停机,这使得更新以顺序方式计划。

如果更新导致冗余系统无法维护其状态,因为它们处于不同的级别,由于版本不兼容,因此除了踢您的供应商的背面到王国来说是不良的练习,那么最好让系统功能更好短时间内的限制(或否)冗余。这种策略与它相关的风险较少,而不是同时经过的问题,导致冗余系统中的主要事件。

想象一下,当发生这样的故障时,数据中心操作区域的惊喜。“别担心伴侣。没有Biggie。我们有两个人。哎呀!第二个也是重启!红色警报!SEV 1!叫醒邻居!”

几年前我记得类似的问题类型madSmartcau Plus,一个令牌环网毂。代码有一个错误,导致集线器在255天后锁定。开发人员使用了一个变量来记录卷起的天数,并将其定义为字节数据类型。但是,该程序逻辑地使用该变量作为Word数据类型,并且在第256天溢出的变量和kapow!

当我们已经实现了锁定的原因时,我们立即让客户进行控制重启作为解决方法,之后我们有255天,在没有错误的情况下加载新代码。

课程学习:依次拼凑。现实:超级星期二习惯。补丁一切。警告:有一天会有一个重大事件海啸,由于时间过去了。

加入网络世界社区有个足球雷竞技appFacebook.linkedin评论是最重要的主题。

版权所有©2008.Raybet2

IT薪水调查:结果是