从阿尔图纳中学到的教训:Facebook最新的数据中心能教给我们什么雷竞技电脑网站

Facebook的数据中心设计如何适用雷竞技电脑网站于你的数据中心计划?

思想库

在过去的一年里,Facebook给传统的网络行业带来了一些有趣的变化。主流的想法是对网络运营的大部分细节保密,而Facebook一直在自由地分享它的创新。对于一家商业模式建立在人们分享个人信息基础上的公司来说,我认为这是非常合理的。

更有意义的是,Facebook在开放方面得到的回报。基础设施副总裁Jason Taylor估计在过去的三年里Facebook已经做到了节省了约20亿美元通过让它的成员开放计算项目试一试它的设计规范。

但是,真正转过头的是去年的宣布,一个与OCP社区开发的开放式顶部开关。持续八个月后楔子6-Pack,一个用于网络核心的楔形模块版本。添加到这些裸金属开关的是FBOSS.,一个开放的基于linux的网络操作系统(好吧,不完全是一个操作系统——在后面的文章中会详细介绍),以及OpenBnc.系统管理。

为什么这种开放性对我们其他人很重要,是因为所有这一切并不只是Facebook内部的一个疯狂科学项目。你很快就可以通过台湾开关制造商购买Wedge智邦科技,将交换机带入数据中心,以便使用集成操作系统的专有开关的成本雷竞技电脑网站。而且您也没有锁定在交换机上运行fboss。你可以逛逛,选择对你最有意义的NOS,如Linux开放网络积云Linux大开关开关灯,也可能是其他的,例如Pica8的Picos甚至杜松的朱诺.如果你有一个勇敢的开发团队,有时间,你甚至可以构建自己的。

我将在以后的文章中写更多关于开放开关和开放软件的内容,但现在我想重点谈谈Facebook在数据中心网络设计方面的创新,以及它对你的意义。雷竞技电脑网站去年11月,在Wedge和6-Pack发布期间,Facebook在爱荷华州的阿尔图纳开设了最新的数据中心。雷竞技电脑网站就像它对其他网络创新所做的那样,Facebook公开分享了新的设计

事实证明,Altoona设计中有一些有价值的外卖器,可以应用于任何尺寸的数据中心。雷竞技电脑网站

超大型的误解

向大多数人跟上这些事情的大多数人雷竞技电脑网站说“Hyperscale数据中心”,他们将重叠地称为Facebook,谷歌和亚马逊。由于这个协会,人们认为超奇像是仅适用于开发人员军队支持的猛犸象数据中心的东西。雷竞技电脑网站

实际上,超规模只是指快速向外扩展的能力。一个超大规模的数据中心网络雷竞技电脑网站可能很小,但它可以在不改变网络的基本组件和结构的情况下成倍增长。随着您的成长,您应该能够使用相同的交换机和相同的互连模式——只是数量更多。您不需要为了适应增长而将一类开关丢弃为另一类开关。

您可以拥有一个仅由几个机架组成雷竞技电脑网站的数据中心,如果网络设计正确,那么它就是一个超大规模的数据中心。超规模是一种能力,而不是规模。

关于超大规模数据中心的另一个误解是,它们是在整个数据中心的大规模中为一个或相对雷竞技电脑网站较少的应用程序进行优化的。这主要源于Facebook和谷歌的关联。事实上,超大规模的设计对于东西方向非常繁重的工作负载是非常理想的,但超大规模的设计原则可以应用于一般的企业数据中心,支持数百种商业应用程序,就像支持单一的社交媒体、大数据或搜索应用程序一样简单。雷竞技电脑网站

Hyperscale还会让人联想到这样一种场景:一群才华横溢的年轻建筑师在硅谷建立起自己动手的网络,他们的薪水远高于普通网络运营商。这对创新者来说可能是正确的,但因为Facebook已经把它的工作摆在了桌面上,像你我这样的普通人可以把他们的设计原则应用到我们自己的数据中心。雷竞技电脑网站

为了理解Altoona网络的重要性,让我们首先看一下网络架构Facebook正在以前的数据中心使用。雷竞技电脑网站

好还不够好:Facebook的集群设计

图1显示了Facebook的前altoona版本聚合群集设计,他们称之为“4帖子”架构。最多255个服务器机柜通过TOR开关(RSW)连接到高密度簇开关(CSW)。该RSW最多可达44 10G下行链路和四个或八个10G上行链路。四个CSW和其连接的RSW包含群集。

图1 041415年

四个“FATCAT”(FC)聚合交换机互连簇。每个CSW与四个FC中的每一个都有40G连接。80G保护环将CSW连接在每个集群内,FCS连接到160g保护环。

从几个方面来说,这是一个好的设计。冗余是好的;超额订阅很好(一般来说,rsw和csw之间是10:1,csw和fc之间是4:1);该拓扑结构相当平坦,没有路由器连接集群;通过增加新的集群,增长管理很简单,至少可以达到fc的40G端口容量。

但Facebook发现,好还不够好。

此架构的大多数问题源于CSWS和FCS非常大的交换机的必要性:

  • 只需处理所有群集内流量的四个盒子和处理所有群集流量的四个盒子,开关故障会产生严重影响。一个CSW故障将集群内容的容量降低25%,一个FC故障将簇间容量降低25%。
  • 非常大的开关限制了供应商的选择——只有少数几个“大铁”制造商。由于这些少数供应商出售的大盒子相对较少,与数量较多的供应商提供的小型交换机相比,每个港口的资本支出和运营支出不成比例地高。
  • 这些大型交换机的专有内界可防止定制,复杂的管理,并扩展到几个月甚至几年的错误修复。
  • 由于大型交换机的交换fabric数量过多,导致所有端口无法同时使用。
  • 集群交换机的端口密度限制了这些拓扑的规模和带宽,并且使下一代端口的传输速度太慢。
  • Facebook的分布式应用程序创建了机器对机器的流量,在一个聚合的网络设计中很难管理。

阿尔图纳:超大型的见解

因此,Altoona的下一代架构必须从根本上纠正集群架构的问题,同时保留其最佳特性。具体地说:

  • 而不是一些大型交换机,使用大量的小型开关。这样,每个交换机都负责较小的负载百分比,并且开关故障取得较小的整体容量。
  • 端口密度分布在多个交换机上,而不是集中在一个交换机上,从而简化了向高带宽端口的过渡,并减少了内部超额订阅。
  • 内部交换机架构应打开,非阻塞,并使用商业硅,鼓励自定义,简化管理和故障排除,并缩短了错误修复的等待时间。
  • 找到一个小于集群的模块化单位,可以在广泛的用途中复制,并经济地部署到数据中心的所有角落。雷竞技电脑网站
  • 减少资本和运营费用。
  • 当然,要快速、简单、廉价地适应任何增长速度。

Facebook想出的是一个分散的核心和pod设计,它创建了一个横跨整个数据中心的单一高性能结构。雷竞技电脑网站pod是基本的构建模块(Facebook称之为标准的“网络单元”),由48个ToR交换机组成,通过40G上行链路连接到4个fabric交换机。查看图2中的拓扑结构,您可以很容易地识别出一个折叠的3阶段秘密地织物——或者去掉“极客语言”,一种“叶子和脊椎”的拓扑结构。与集群设计中的数百个服务器机架不同,这些舱每个只包含48个服务器机架。因此ToR和fabric交换机都可以保持相对较小的端口密度。假设每个ToR交换机有48条10G下行链路,pod就有3:1的超额订阅——比10:1的集群超额订阅有了显著的改进。

图2 041415年

各个吊舱通过40G上行链路连接到四个脊柱平面,如图3所示。每个脊柱平面最多可以有48个开关。这种拓扑结构的关键在于,每个fabric交换机都有相同数量的40G下行和上行链路——最大下行48 g,上行48 g——因此fabric是无阻塞的,并且在pod之间没有超额订阅。对分带宽,运行到多pb,是一致的吞吐量的数据中心。雷竞技电脑网站

图3 041415年

图3中的图示出了织物开关和它们对应的脊柱平面之间的颜色编码连接,但不会遵守所有关系的正义。和某种肯定地罢工的东西是很多织物开关和脊柱开关之间的链接。光学和电缆可能变得昂贵,因此管理吊舱和脊柱飞机之间的距离是很重要的。(如果您有兴趣了解有关Facebook的架构的更多信息,这里有用于集群架构的源文档(PDF)和阿尔图纳架构.)

如果你旋转豆荚和线,每个吊舱的48架的方式将被安排进行数据中心,然后用脊柱做同样的飞机——但它们排垂直于圆荚体-你得到三维图如图4所示,随着织物开关成为脊柱飞机的一部分。雷竞技电脑网站减少了光纤交换机和脊柱交换机之间的距离。需要注意的是,还有一些边缘吊舱,它们提供了织物的外部连接。

041415年装具

Facebook网络工程师Alexey Andreyev这样描述这种结构:“这种高度模块化的设计允许我们在一个简单而统一的框架内快速扩展任何维度的容量。当我们需要更多的计算能力时,我们添加服务器荚。当我们需要更多的内部网络容量时,我们在所有平面上增加脊柱交换机。当我们需要更多的超结构连接时,我们就会在现有的边缘交换机上增加边缘pods或扩大上行链路。”

如果您想听听Andreyev自己描述Altoona架构,这是一个很好的视频:

阿尔图纳外卖

现在您可能想知道这些与您和您的数据中心有什么关系。雷竞技电脑网站毕竟,Facebook支持或多或少的单一分布式应用程序,生成跨越整个数据中心的机器对机器的流量。雷竞技电脑网站你可能不喜欢。虽然48个机架的吊舱是早期集群的缩小版,但大多数企业数据中心整体规模都小于48个服务器机架。雷竞技电脑网站

那么,你为什么要关心这个呢?因为它不是规模。它的可伸缩性。

从Altoona设计中的根本外来的外带是使用小型开关构建数据中心网络的优势,在架构中,您可以在不更改基本构建块的情况下扩展到任何尺寸的架构。雷竞技电脑网站首先看看交换机。你不必等待楔子或6包去市场(Accton将是销售楔很快)。您可以从Accton,Quanta,Celestica,Dell和其他人中挑选裸金属开关,为一小部分成本拨打大型供应商将收取费用。例如,具有32 40g端口列表的Quanta开关以7,495美元。瞻博网络QFX5100,带24个40G端口的列出略低于30,000美元。这是一个公平的比较吗?Junos Premium为您提供了一个非常棒的操作系统,但裸机开关为您提供了一堆装载您选择的操作系统的选项。

至于豆荚和核心设计,可以根据自己的需要进行调整。豆荚可以是任何你想要的大小;虽然“网络单位”是一个很棒的概念,但它不是一个规则。您可以创建许多pod设计来满足特定的工作流需求,或者仅仅是开始从旧架构迁移。Pods也可以是特定于应用程序的。随着数据中心网络雷竞技电脑网站的发展,或者采用更新的技术,您可以不受干扰地“插入”新的豆荚。

核心部分也是如此。您可以在第2层或第3层构建它。这完全取决于您所支持的工作流。使用一个简单的豆荚和核心设计,您可以轻松地以任何对您有意义的速度增长您的数据中心网络,从每几年一个新的豆荚到每几个月的爆炸性增长雷竞技电脑网站的新豆荚。

加入网络世界社区有个足球雷竞技app脸谱网linkedin.对自己最关心的话题发表评论。

版权所有©2015.Raybet2

工资调查:结果是