ARISTA 10G开关:快速灵活

基于linux的核心交换机,密度高,性能好

将384个10g以太网端口包装为11机架单元外形是Arista网络DCS-7508数据中心核心交换机的开头。雷竞技电脑网站

在这个独家清晰的选择测试中,7508的性能落后于另一个高水位标记。它切换了57亿帧,每秒最高吞吐量在网络世界测试中看到。有个足球雷竞技app它将多播流量移动到所有端口上超过4,000个组,另一个用于模块化开关的记录。除了我们故意拥挤的交换机时,几乎在各种情况下,它几乎耗尽了电线速度,并且每端口最高可达83MB。

Arista再次试图击败思科,其他数据中心公司雷竞技电脑网站

在其令人印象深刻的性能统计之上,7508还展示了多个冗余和负载平衡机制,并从故障中快速恢复。它确实在Linux上运行了所有这些运行,具有Unix的操作系统附带的所有可扩展性。

对于网络管理者,想知道为什么他们需要这个港口密度:它可能不会发生本季度或下一季度,但是10G以太网已经很好地替换千兆以普及数据中心传输。雷竞技电脑网站

这些标志都在那里:英特尔即将出货10g装备服务器数量的主板。存储供应商的镜像已经通过融合的10G以太网骨架发送iSCSI流量。并开始出现更快的40g和100g以太网上行链路。鉴于网络齿轮的通常多年折旧周期,Arista 7508等高密度开关开始有意义作为数据中心的工作主流。雷竞技电脑网站

经过良好的设计

超出其高密度,7508提供了一些严重的硬件。由于每个织物卡上的粉丝和机箱内的格子,气流非常出色。电源管理允许我们使用两个电源,而不是标准四,以完整的倾斜度驾驶所有384个端口。

这种设计智慧延伸到了Arista的EOS软件。下面一个思科IOS的命令行界面(CLI),EOS提供模块化和完整的Linux命令集。模块化,也在思科的NX-OS中看到的Nexus交换机,意味着任何一个过程的失败都不会缩小整个系统,因为它将在思科的主线iOS这样的单片设计中。我们通过故意杀死EOS流程并观察它们自动重新验证这一点;对其他系统功能没有影响。

但EOS的最大实力是其可扩展性。因为它是引擎盖下的Linux,EOS是高度可定制的。供应商为其CLI提供源代码,以及许多其他(虽然不是全部)系统组件,并积极鼓励客户破解其代码。

为了证明EOS的可扩展性,Arista最近给了一群开发人员和系统工程师(包括一些非程序员)24小时的时间让他们运行新项目。该团队开发了数十种工具,从有用的(比如你使用的是Mac电脑,当特定接口上升或下降时,你想要Growl通知)到非常疯狂的(潘多拉收音机在开关上运行,通过一个20美元的USB声卡连接到外部扬声器)。基本上,任何可以在Linux上运行的任务都可以在EOS上运行。

此外,单个EOS二进制图像在所有ARISTA交换机上运行,​​包括7508等核心框和各种顶级系统。拥有一个系统图像消除了竞争对手交换机产品线路有时会看到的特征和命令不匹配。

电线速度一直

我们主要在性能方面评估了Arista开关,电池电量长时间的测试,旨在确定系统的限制(参见“我们是如何做到的“)。

描述7508的单播吞吐量很容易:它总是以线速运行。随着Spirent TestCenter流量生成器/分析仪在所有384个10G以太网端口上以完全网格的流量模式运行,7508在我们的任何单播测试中都没有丢失一帧。在高达每秒3.832兆位的速率下,7508是完美的,无论是在第2层还是第3层配置。

当处理组播业务时,7508也是非阻塞的,提供帧长度为70字节或更长时间。使用最小长度为64字节帧,系统的吞吐量相当于线速率的92.588%。对于我们使用的每种其他帧大小,系统再次在Liult-2和第3层设置中,系统再次在无损耗下转发所有流量。(我们已经添加了70字节的多播测试,以显示系统将在帧时以线速率转发,当帧长或更长。)

第2层和第3层组播测试还涉及控制平面可扩展性非常高。我们用383个接收器端口耗尽了第2层测试,所有这些测试都订阅了4,095个组播组。这远远高于以前的Networ有个足球雷竞技appk World测试我们涉及模块化核心开关;通常这些测试涉及1,024个或更少的组。

在第3层外壳中,383个接收器端口上的订阅者加入了“仅”512组播组,但是该系统再次在384个端口中的每一个上都会运行不同的PIM-SM组播路由会话。

潜伏期通常很低,一致。第2层和第3层延迟几乎相同。处理单播流量时,7508平均延迟流量,帧长度延迟不到9微秒,最多为1,518个字节;随着巨型帧,平均延迟约为13微秒。

延迟图表和网络结果

点击查看:延迟图表和网络结果

一个例外:最大延迟与长度和中长度单播帧大大高,比长度和中等长度的单次帧更高,逆转经常用以太网交换机看到的模式,其中延迟随着帧长度而增加。这只是在单播测试中看到的。

在多播测试中,无论帧大小如何,平均和最大延迟都明显低于单播(见图2)。这对于越来越多的用户越来越多的用户在数据中心中使用多播(例如,许多股票报价和交易)很重要雷竞技电脑网站应用程序用于金融服务行业)。

这里,平均延迟小于1,518个字节或更短的帧长度,以及巨大帧的帧长为5微秒。同样,第2层和第3层测试用例之间没有显着差异。与单播测试不同,最大组播延迟不会显着高于平均延迟。

最大化正常运行时间

虽然高性能对于核心交换机至关重要,但高可用性至少同样重要。7508的高度冗余设计延伸到许多组件:有6个织物卡,每个都有自己的风扇,多个电源和冗余管理模块。

为了测量从冗余结构模块丢失恢复所需的时间,我们物理地删除了一个织物卡,同时为所有384个端口提供单播64字节单播帧。通过将帧损耗分成帧率,我们确定系统恢复

31.84 microSec。

这不是瞬间的,但它仍然很快;许多企业应用程序的性能,尤其是在TCP上运行的应用程序,直到中断到毫秒的中断时不会降级。Arista表示,32-microSec图表只表示“在飞行中”的框架

在我们拉动织物模块时在发射和接收端口之间。“

功耗是另一个关键考虑因素,尤其是数据中心扩展到支持数百或数千个10G以太网端口。雷竞技电脑网站我们以两种模式测量功率使用:完全加载,带有从线路速率的所有384个端口提供的螺旋测试仪器的流量,并且只有50%的装载,只有一半的线卡(但仍然以线速率提供流量牌)。在这些和所有其他测试中,开关使用直接连接的铜(DAC)电缆和收发器。

满载时,7508的功率为4358瓦,相当于每个端口11.3瓦。在只有一半端口插入的情况下,系统使用了1598瓦,或每个端口8.3瓦。满载数字是最糟糕的情况,而50%的情况对许多企业更有代表性,特别是那些没有在第一天就填满所有线路卡的企业。

缓冲能力

Arista要求我们测量7508的突发处理特性,特别是为了验证Arista声称的系统每个端口最多可以缓冲50MB。处理短的、高速的流量突发在许多高性能计算应用程序中特别重要,在这些应用程序中,多个发送方可能在同一时刻将数据呈现给同一个接收方。

虽然许多供应商在营销抵押品中谈论微生物,但尚未尚未制造爆破处理的行业标准方法。我们在此处使用了几种方法:首先,使用2:1稳态流量的超额认购,我们提供256个端口的流量,注定到所有剩余的128个端口。这是一个简单的缓冲测试,不管爆发长度如何。

其次,为了评估微生物缓冲,我们在同一时间向与多个来源的线速率发送不同尺寸的突发。通过尝试不同的突发长度,我们发现系统可以在没有帧损耗的情况下缓冲系统的最大微观长度。

虽然Microcurst方法由于企业流量的动态性而言,虽然具有动态性质,但第一种方法产生了令人惊讶的结果。

面对2:1的超额订阅,交换机最初下降了近60%的流量,而不是预期的50%或更少,这意味着它根本没有缓冲。Arista将这种损失归因于7508的虚拟输出排队(VOQ)和我们的测试流量的完全非随机顺序的组合方式。将VOQ调度设置为非默认设置(“petra VOQ tail-drop 2”)后,丢包率下降到50%或更少,如预期的那样。

在稳态和微突发缓冲测试中得到的另一个教训是,缓冲容量在一定程度上取决于所涉及的发送者和接收者的数量。当我们使用256个发射器和128个接收器端口运行微突发测试时,7508在每个接收器端口上缓冲高达83.49兆字节,并且没有帧损失,远远超过了Arista声称的50MB/端口。这相当于大约56300 1518字节的帧。

但是,如果我们用383个发射器运行所有针对一个接收器的测试,可以在不损失的情况下缓冲的最大流量远低于6.85MB(或大约4,600个1,518字节框架)。

结果因7508年的VOQ和基于信用架构而异。当帧进入交换机时,它将分配缓冲区并发出发出转发凭证,如果存在足够的资源以转发流量。发射器与接收器的比率越高,所请求和可用资源之间的不平衡越大。在这种灯中,Arista的50MB索赔是一个复合人物,假设发射和接收端口计数是最佳和最坏情况之间的某个位置。

利用MLAG提高带宽

提及生成树到任何数据中心架构师,您可能会被皱眉的令人震惊。雷竞技电脑网站除了用其主动/被动设计中的切割带宽(其中50%的链路和端口静置),该协议可能是棘手的故障排除,尤其是当涉及多个VLAN时。

许多切换供应商包括Arista,具有消除生成树的方法,依次实现更大,更快,更平坦的数据中心设计。雷竞技电脑网站虽然所有各种方法都是专有的,但是Arista的方法称为多交换机链路聚合(MLAG),始于IEEE 802.3ad链路聚合规范。

使用MLAG,每个连接的服务器或交换机都可以使用基于标准的链路聚合来形成具有两个物理ARISTA交换机的虚拟管道,并将这些交换机视为一个逻辑实体。MLAG适用于使用链路聚合控制协议(LACP)的任何设备。它使可用带宽加倍,其主动/主动设计,同时仍然防止像生成树这样的环。

我们用两对8端口MLAG中继验证了MLAG功能,每对中继跨越两个7508交换机。首先,我们通过提供来自256台由Spirent测试仪器模拟的主机的双向测试流量,验证了MLAG可以跨所有端口转发。MLAG完美地分配了来自这些主机的流量,每个MLAG端口转发的帧数完全相同。

为了测试MLAG弹性,我们重新启动其中一个7508,迫使流量进入MLAG主干中的其余端口。通过从帧丢失推导出切换时间,我们确定系统恢复转发所有流量而不丢失需要158.81毫秒。相比之下,快速生成树在发生类似故障后,一般需要1 ~ 3秒才能收敛。

虽然MLAG代表了一种有趣的方法,但它基于简单且良好的标准,仍然存在专有组件:两个简单的对等体必须是ARISTA交换机,使用专有协议共享学习和状态信息。然而,对于附加到对等体的设备,它只是基于标准的LACP。

OSPF可扩展性

我们已经在吞吐量和延迟测试中使用了多播路由,但我们还评估了单播路由,具有OSPF路由可伸缩性和等价多径(ECMP)功能的测试。

为了测量路由能力,我们配置了Spirent测试工具,通过OSPF逐步发布更大数量的网络,然后确定7508是否可以将流量转发到所有这些网络而没有损失。系统在其硬件转发表中最多可以安装13500条路由。

12 第1页
第1页共2页
IT薪水调查:结果在