“高可用性”技术和营销词汇的年,和最近的基础设施设备供应商在这方面“哈”一组特性。哈意味着硬件和软件的结合,减少设备停机时间。在这个“五个9”的时代可靠性和严格的服务水平协议,几乎任何停机时间是不可接受的:如果一个设备的服务超过一年大约315秒,它是低于99.999%的门槛。
最大的硬件漏洞是电源。破产的热量使得这个最任何路由器或交换机的组件。紧随其后的是冷却风扇,可以失败,因为他们已经移动部件。因此你应该期待任何中档和路由器或者交换机冗余电源和风扇。
这些都是相当简单的。冗余电源都是(希望连接到单独的电路)和供电系统,如果没有另一个持续供电系统。风扇冗余通常只是把足够的粉丝系统,如果一个人不能有足够的剩余提供足够的冷却。所以冗余电源和风扇成本增加的设备主要是组件本身的成本。
当你靠近高端设备,你开始发现冗余控制和货运飞机。这些组件比电源和风扇更贵,所以使其冗余将使网络设备的成本飙升。
让我们看一个控制飞机:路由处理器(RP)在一个典型的Cisco路由器或路由引擎(重新)在一个典型的杜松路由器。在最基本的实现,冗余控制飞机意味着一个RP或再保险在主动模式运行,另备用。如果活跃的一个失败,操作干预需要切换到备份。停机时间减少了,因为你不需要等待一个现场技术员更换故障组件。当然并不理想,因为系统仍下跌,同时有人在检测到故障和执行切换操作。
一个自动切换失败听起来像它可以显著减少恢复时间,但它还可以打开一罐蠕虫:你如何定义失败?一块冰冷的电子电路没有穿过它肯定符合标准。(小矮人会说,它不仅只是死了,很真诚地死了。)但控制飞机,仍执行几乎所有的职责,但是,说,增加其OSPF序列号由一个较大的值每次增量,使它迅速最大价值和随之而来的OSPF需要重置本身(在此过程中降低其邻接)?这是一个控制平面失败有益于一个切换到备份的,或只是一个协议失败,而服务影响,并非如一个完整的控制平面转换。那一个软件缺陷导致控制飞机失败?如果错误是在一个处理器,它也可能在另一个。你让他们不断地失败,切换到其他,只有失败和切换回第一,再次失败,没完没了地,直到有人干预?你也没有备份控制飞机在这种情况下。你怎么设置规则在切换时是有用的,当它不是吗? How do you determine the thresholds of failure? How do you insure that a system does not go into a perpetual flip-flop between control planes?
也许更重要的是,你如何设计一个故障检测机制有足够的可靠性,它不错误地声明一个失败和切换到备份控制飞机的主要工作时很好吗?你最好让你的选择,因为每年315秒的时间可以很快用完了。
使用冗余控制飞机的另一个重点提高系统可用性是故意的减少停机时间。操作系统软件必须升级,增加安全,摆脱一个bug,添加一个新特性,或者仅仅是保持当前的版本。传统上,软件升级意味着加载新的图像,然后重新启动系统。这里,即使一切顺利,你可能使用你的5分钟的每年允许停机时间。
这种情况是在职背后的驱动程序软件升级(ISSU)的能力升级软件没有的系统服务。使ISSU工作的关键是冗余控制飞机,这两个是不同的物理实体的货运飞机。而不是有一个控制飞机在一个简单的待机模式,它“关注”主动控制飞机在做什么。一份所使用的各种数据库和状态主动控制飞机保存备用。执行软件升级首先切换到备用控制飞机。因为它一直跟踪数据库和状态,它应该能够控制系统的速度远远超过如果它必须从一个被动的模式。那么你对先前活动执行升级控制平面和重新启动它。当组件是备份和稳定,并再次同步数据库和州,你切换回控制飞机。你可以升级并重新启动备份。
尽管这个基本版本的ISSU可以减少软件升级所需的停机时间,它不能完全消除它。事实上,切换仍然可以严重破坏了网络。例如,即使备份控制平面界面状态的副本,邻居,路由表,等等,当切换第一次发生路由邻接都折断了。当备用变得活跃,它必须遵守协议程序将邻接后退。虽然这正在发生,路由协议的邻居会检测到节点,告诉他们自己的邻居,导致整个网络拓扑变化。当新的控制飞机建立了它的邻接,邻居们再次告诉他们的邻居,还有一个拓扑网络中重新计算。
这个问题也可以得到解决,通过实现软件,房屋邻接路由到主动控制飞机,同时保持备用意识到邻接。当发生切换时,备用可以立即接管现有的邻接邻居们没有意识到任何改变。
我发布之前在机制设计来防止这类路由协议中断。
虽然这种“不间断路由”能力很容易描述,很复杂的实现。路由器厂商开发这样的解决方案可以尽可能多的资金陷入一个ISSU / NSR项目,因为他们可能花在开发新的硬件平台。这些成本当然是传递给你。
这是这篇文章的点(终于)。厂商投资数以百万计的这些复杂HA解决方案的发展,因为他们的客户需求。然而这些客户往往疏忽在实现最简单,最便宜的程序性规则防止网络中断。我很诧异地发现,通常是一个网络运营商愿意接受成千上万美元的成本获得HA特性添加他们的路由器但没有-或不执行的配置标准。或有明确的变更管理过程。甚至实现多层次的配置权限。
和建模网络变化在表演之前在生产网络吗?这是例外而不是规则。
别误会我,我认为冗余和特性,比如ISSU / NSR对于任何网络至关重要,必须满足严格的sla。只是最普遍的中断源-简单的人为错误得到最少的关注和补救是最简单和最便宜的问题。