ARISTA 10G开关:快速灵活

基于linux的核心交换机集高密度,惊人的性能记录

将384个10g以太网端口包装为11机架单元外形是Arista网络DCS-7508数据中心核心交换机的开头。雷竞技电脑网站

在这个独家清晰的选择测试中,7508的性能落后于另一个高水位标记。它切换了57亿帧,每秒最高吞吐量在网络世界测试中看到。有个足球雷竞技app它将多播流量移动到所有端口上超过4,000个组,另一个用于模块化开关的记录。除了我们故意拥挤的交换机时,几乎在各种情况下,它几乎耗尽了电线速度,并且每端口最高可达83MB。

Arista再次试图与思科和其他数据中心公司抗衡雷竞技电脑网站

在其令人印象深刻的性能统计之上,7508还展示了多个冗余和负载平衡机制,并从故障中快速恢复。它确实在Linux上运行了所有这些运行,具有Unix的操作系统附带的所有可扩展性。

对于想知道为什么他们需要这么多端口密度的网络管理人员:这可能不会在本季度或下个季度发生,但10G以太网已经在取代千兆以太网成为普遍的数据中心传输方式的路上走得很好。雷竞技电脑网站

迹象都在那儿:英特尔即将发运10g装备服务器数量的主板。存储供应商的镜像已经通过融合的10G以太网骨架发送iSCSI流量。并开始出现更快的40g和100g以太网上行链路。鉴于网络齿轮的通常多年折旧周期,Arista 7508等高密度开关开始有意义作为数据中心的工作主流。雷竞技电脑网站

经过良好的设计

超出其高密度,7508提供了一些严重的硬件。由于每个织物卡上的粉丝和机箱内的格子,气流非常出色。电源管理允许我们使用两个电源,而不是标准四,以完整的倾斜度驾驶所有384个端口。

这种设计智能延伸到了Arista的EOS软件。下面一个思科类似于ios的命令行界面(CLI), EOS提供了模块化和完整的Linux命令集。模块化也体现在思科用于Nexus交换机的NX-OS系统中,这意味着任何一个进程的故障都不会导致整个系统崩溃,就像思科的主流产品线IOS那样。我们通过故意杀死EOS进程并看着它们自动重生来验证这一点;对其他系统功能没有影响。

但是EOS最大的优点是它的可扩展性。因为它在本质上是Linux, EOS是高度可定制的。该供应商为其CLI和许多其他(尽管不是全部)系统组件提供源代码,并积极鼓励客户破解其代码。

为了演示EOS的可扩展性,Arista最近给了一组开发人员和系统工程师,包括一些非程序员,24小时来让新项目运行。这个团队开发了几十个工具,从有用的(假设你在Mac上,想要在特定界面上升或下降时发出Growl通知)到疯狂的(潘多拉电台在开关上运行,通过一个20美元的USB声卡连接到外部扬声器)。基本上,任何可以在Linux上运行的任务都可以在EOS上运行。

此外,一个EOS二进制映像可以在所有Arista交换机上运行,包括7508等核心机箱和各种顶级系统。拥有一个系统映像可以消除有时在竞争对手的交换机产品线中看到的功能和命令不匹配。

线速度一直都在

我们主要从性能方面评估了Arista开关,用了很长时间的测试来确定系统的极限(见“我们是如何做到的“)。

描述7508的单播吞吐量很容易:它总是以有线速度运行。随着Spirent TestCenter流量发生器/分析仪在所有384个10G以太网端口上以完全网状的流量模式爆炸,7508在我们的任何单播测试中都没有掉下一帧。在高达3.832兆位/秒的速率下,7508是完美的,无论是在第二层还是第三层配置。

如果帧长度为70字节或更长,那么7508在处理多播流量时也是非阻塞的。对于最小长度的64字节帧,系统的吞吐量相当于线路速率的92.588%。对于我们使用的其他帧大小,系统再次以线路速度转发所有流量而没有损失,无论是在第2层和第3层设置中。(我们增加了70字节的多播测试,以显示当帧长或更长时,系统将以行速率转发。)

第二层和第三层多播测试还涉及到非常高的控制平面可伸缩性。我们使用383个接收端口运行第二层测试,这些端口都订阅了4,095个多播组。这比之前的网络世界测试有个足球雷竞技app我们已经做了涉及模块化核心交换机;这些测试通常涉及1024个或更少的组。

在第3层外壳中,383个接收器端口上的订阅者加入了“仅”512组播组,但是该系统再次在384个端口中的每一个上都会运行不同的PIM-SM组播路由会话。

潜伏期通常很低,一致。第2层和第3层延迟几乎相同。处理单播流量时,7508平均延迟流量,帧长度延迟不到9微秒,最多为1,518个字节;随着巨型帧,平均延迟约为13微秒。

延迟图和净结果

点击查看:延迟图表和网络结果

一个例外:最大延迟与长度和中长度单播帧大大高,比长度和中等长度的单次帧更高,逆转经常用以太网交换机看到的模式,其中延迟随着帧长度而增加。这只是在单播测试中看到的。

在多播测试中,无论帧大小如何,平均和最大延迟都明显低于单播(见图2)。这对于越来越多的用户越来越多的用户在数据中心中使用多播(例如,许多股票报价和交易)很重要雷竞技电脑网站应用程序用于金融服务业)。

这里,对于1,518字节或更短的帧长度,平均延迟小于5微秒,而对于巨型帧,平均延迟约为6微秒。同样,第2层和第3层测试用例之间没有显著差异。与单播测试不同的是,最大组播延迟并不显著高于平均延迟。

最大化正常运行时间

虽然高性能对于核心交换机至关重要,但高可用性至少同样重要。7508的高度冗余设计延伸到许多组件:有6个布卡,每个都有自己的风扇、多个电源和冗余的管理模块。

为了测量从冗余fabric模块丢失中恢复所需的时间,我们物理上删除了一个fabric卡,同时向所有384个端口提供单播64字节单播帧。通过将帧丢失分为帧速率,确定了系统的恢复时间

31.84 microSec。

这不是瞬间的,但它仍然很快;许多企业应用程序的性能,尤其是在TCP上运行的应用程序,直到中断到毫秒的中断时不会降级。Arista表示,32-microSec图表只表示“在飞行中”的框架

在我们拉动织物模块时在发射和接收端口之间。“

功耗是另一个关键考虑因素,特别是当数据中心扩展到支持数百或数千个10G以太网端口时。雷竞技电脑网站我们测量了两种模式下的功率使用:满载,Spirent测试仪器的流量以线路速率提供给所有384个端口;满载50%,仅插入一半的线路卡(但仍然以线路速率提供给所有这些卡)。在这些和所有其他测试中,开关使用直接连接的铜(DAC)电缆和收发器。

当满载时,7508需要4358瓦,或每个端口约11.3瓦。只有一半的端口插入,系统使用1598瓦,或8.3瓦每个端口。满载的数字是最坏的情况,而50%的情况对许多企业更有代表性,特别是那些没有在第一天填充所有线路卡的企业。

缓冲能力

Arista要求我们测量7508的突发处理特性,特别为了验证Arista声称系统每个端口最多可以缓冲50MB。在许多高性能计算应用程序中,处理短的、高速的流量突发尤为重要,因为在这些应用程序中,多个发送方可能在同一时刻将数据呈现给同一个接收方。

虽然许多供应商在营销抵押品中谈论微生物,但尚未尚未制造爆破处理的行业标准方法。我们在此处使用了几种方法:首先,使用2:1稳态流量的超额认购,我们提供256个端口的流量,注定到所有剩余的128个端口。这是一个简单的缓冲测试,不管爆发长度如何。

其次,为了评估微生物缓冲,我们在同一时间向与多个来源的线速率发送不同尺寸的突发。通过尝试不同的突发长度,我们发现系统可以在没有帧损耗的情况下缓冲系统的最大微观长度。

虽然Microcurst方法由于企业流量的动态性而言,虽然具有动态性质,但第一种方法产生了令人惊讶的结果。

面对2:1的超额订阅,该交换机最初减少了近60%的流量,而不是预期的50%或更少,这意味着它根本没有缓冲。Arista将损失归因于7508的虚拟输出队列(VOQ)工作方式和我们的测试流量的完全非随机顺序的组合方式。在将VOQ调度设置为非默认设置(“petra VOQ tail-drop 2”)后,丢包率如预期的那样下降到50%或更少。

在稳态和微突发缓冲测试中得到的另一个教训是,缓冲容量在一定程度上取决于所涉及的发送方和接收方的数量。当我们在256个发送端和128个接收端端口上运行微突发测试时,7508在每个接收端端口上缓冲了高达83.49兆字节,没有帧丢失,这远远超过了Arista声称的50MB/端口。这相当于大约56300个1518字节的帧。

但是,如果我们用383个发射器运行所有针对一个接收器的测试,可以在不损失的情况下缓冲的最大流量远低于6.85MB(或大约4,600个1,518字节框架)。

结果因7508年的VOQ和基于信用架构而异。当帧进入交换机时,它将分配缓冲区并发出发出转发凭证,如果存在足够的资源以转发流量。发射器与接收器的比率越高,所请求和可用资源之间的不平衡越大。在这种灯中,Arista的50MB索赔是一个复合人物,假设发射和接收端口计数是最佳和最坏情况之间的某个位置。

用MLAG提高带宽

提及生成树到任何数据中心架构师,您可能会被皱眉的令人震惊。雷竞技电脑网站除了用其主动/被动设计中的切割带宽(其中50%的链路和端口静置),该协议可能是棘手的故障排除,尤其是当涉及多个VLAN时。

包括Arista在内的许多交换机供应商都有消除生成树的方法,从而实现更大、更快、更平坦的数据中心设计。雷竞技电脑网站虽然各种各样的方法都是专有的,但Arista的方法,即多交换机链路聚合(MLAG),始于IEEE 802.3ad链路聚合规范。

使用MLAG,每个附加的服务器或交换机都可以使用基于标准的链路聚合来形成一个虚拟管道,其中包含两个物理的Arista交换机,并将这些交换机视为一个逻辑实体。MLAG适用于任何使用链路聚合控制协议(LACP)的设备。它通过主动/主动设计使可用带宽翻倍,同时仍然可以防止生成树之类的循环。

我们用两对8端口MLAG中继验证了MLAG功能,每对中继被拆分到两个7508交换机上。首先,通过提供来自Spirent测试仪器模拟的256台主机的双向测试流量,我们验证了MLAG可以跨所有端口转发。MLAG完美地分布了来自这些主机的流量,每个MLAG端口转发的帧数完全相同。

为了测试MLAG弹性,我们重新启动了7508s中的一个,将流量强制放到MLAG主干中的其余端口上。通过从帧丢失中导出切换时间,我们确定系统恢复转发所有流量而不丢失需要158.81毫秒。相比之下,快速生成树在发生类似的故障后通常需要1到3秒才能收敛。

虽然MLAG是一种有趣的方法,因为它基于一个简单且易于理解的标准,但仍然有一个专有组件:两个MLAG对等体必须是Arista交换机,它们使用专有协议共享学习和状态信息。然而,对于连接到对等体的设备,它只是基于标准的LACP。

OSPF的可伸缩性

我们已经在吞吐量和延迟测试中使用了多播路由,但我们还评估了单播路由,具有OSPF路由可伸缩性和等价多径(ECMP)功能的测试。

为了测量路由容量,我们配置Spirent测试仪器,通过OSPF通告逐渐增加的网络数量,然后确定7508是否能够毫无损失地将流量转发到所有这些网络。该系统可以安装在其硬件转发表中的最大路由数量为13500条。

12 第1页
第1页共2页
工资调查:结果已经出来了