这是对哈佛大学网络主管杰伊·图马斯的采访。
![]() |
| Jay Tumas,哈佛大学网络主管。 |
哈佛大学的数据网络支持超过12.5万名用户,其边境网关复合体路由大约50万个IP地址,网络每天运送大约150TB到200TB的数据。Jay Tumas谁监督网络核心的运营中心,最近给了行政新闻编辑编辑鲍勃·棕色的景象。
给我一个哈佛网络的缩略图。
哈佛核心网络(HCN)服务于波士顿和其他城市的极端多样化的用户群体。我们有dual的所有东西千兆以太网feeds serving the entire Harvard College network with tens of thousands of clients and a Class B chunk of address space, to a channelized T-3 circuit serving remote affiliates in Washington, D.C., or a T-1 serving a remote library repository in central Massachusetts. The [University Information Systems] NOC [network operations center] is the primary maintenance organization for the Northern Crossroads (NoX), New England's Internet2 aggregation point, which serves 1 million-plus users.
其范围包括近1000栋建筑,我们征求所有联系成员的建议,以巩固客户范围,网络所有权和融资模式。120多个连接成员可以管理自己的成员兰斯和雷竞技电脑网站数据中心,或者他们可能已经把从网络维护到Windows客户端更新的所有事情外包给我们。(要了解哈佛的带宽使用情况,请去看看在这里.)
我有时听到人们说像哈佛这样的组织有类似电话公司网络的网络。鉴于你在新英格兰电话公司的背景,哈佛的网络真的像电话公司吗?
上世纪90年代的数据网络是出了名的无证,实体工厂看起来更像意大利面条,而不是任何机构愿意信任的关键数据。哈佛大学和其他研究和医疗机构开始意识到,这个迅速成为其关键基础设施一部分的网络在很大程度上是一个未知数,这必须改变。事实也确实如此。
您现在会发现,许多机构已经用GIS系统将地下管道连接到光纤库存,并在生产网络中的每根光纤和铜电缆的每一端进行标记等工具仔细地记录了他们的物理工厂。这些周期可以是昂贵的,尤其是当面对的艰巨挑战记录和盘点大规模生产网络如哈佛大学,但是他们是周期花,哪些证明宝贵的我们都努力使我们的网络一样身体健壮我们的路由协议在逻辑上是健壮的。
截至较晚,哈佛一直在展示另一台电信特征 - 将网络视为大学的关键基础设施的一部分。
因此,它的建设是在建筑改造、新建和校园扩建项目的初始规划阶段考虑的。哈佛大学和类似机构目前正在建立的数据网络,是为了承载各种基于ip的通信。大多数工厂的控制设备,无论是安全摄像头、冷冻水阀门执行器还是停车场的读卡器,都在设计中与IP网络协同工作。对于网络来说,为大学提供投资回报率最好的方法就是提供一个强大的,物理基础设施的高可用性部分,不仅支持研究和学术界的数据通信需求,而且作为平台,促进其他工厂的控制和通信需求的汇聚。
你从在新英格兰电话公司的工作中学到了什么,使你能够申请到哈佛大学?
我学会了如何维持一个强大的人际网络。以下是我带来的一些概念:
- 一个测试实验室。电信公司有Bellcore(现在的Telcordia)来确保其关键基础设施的顺利推出。你也需要一个实验室。要确保体系结构或代码升级顺利进行,没有比拥有自己的实验室环境来测试未来配置更好的方法了。在选择实验设备时,最好不要太便宜。您应该建立一个反映您的生产环境的实验室,以确保您是在比较不同的产品。实现这一点的一个好方法是在您的实验室中使用您的网络备用。这可以保持备用机箱和刀片的热度,使您知道它们是好的,并确保您使用与生产环境兼容的配置进行测试。
- 记录一切。这包括资产,流程和程序。这台电视机已经提早实现了这一点,并从当天的适当办公礼仪那里记录了一切,以便在一系列称为Bell系统实践的大量手册中发电厂维护。您不需要转到极端的那些,而是包含当前架构描述,维护程序,硬件库存和访问过程的文档是一个很好的开端。我们在九年前开始了NOC文件。虽然其大约160页涵盖了我们的操作流程的大部分,但供应商联系和其他至关重要的信息,以支持HCN的工作和业余时间,总是有更多的可以添加。你必须将文档的剪切尺寸与你的员工所能保持的最新尺寸相匹配。
- 组织你的植物。没有人像马铃那样做到这一点。通过成千上万的COS [中央办公室],数万架和交叉连接系统,以及数百万英里的十字线,训练有素的CO技术人员可以去任何CO并将手指放在建筑物中的任何电路上。这一壮举由一个名为Tirks(Trunk Inventory Recording System)的库存系统向我们带到我们。在数据网络中,几乎没有机会保持复杂的系统。但是,您应该要求全部库存和标记。我在10年内搬了两次NOC数据中心。雷竞技电脑网站我们第一次在拾取卡车后面执行。所以我们撇去了那个领域;然而,我们肯定通过安装架空电缆托盘,设计精心的数据柜和电缆管理系统来改善我们的厂房结构。最后一次移动我们的数据中心植物组织更加改善了多级,地板下电缆托盘,严格的电缆安装,缠绕和标记要求。 We even invested in glass 2-by-2 floor tiles so we can display the results.
- 演练您的容灾架构。在真实断电场景下测试您的电源备份,无论它是由建筑物基础设施、房间或机架UPS系统提供的应急电源。断开商用电源,让应急电源处理生产负载,就像在紧急情况下那样。确保您知道应急电源将为您的网络设备提供多长时间的电源,并在添加时记住这一点刀片对于那些底盘,[不间断电源]将能够为附加齿轮供电的时间可以显著减少。此外,如果您的数据中心有一个容灾计划,其中包括一个链接回校园的远程数据中心雷竞技电脑网站,请确保模拟或估计连接基础设施上的实际服务器负载。
- 让你的客户了解情况。在网络中断发生内部和外部客户的商定通知程序,或者如果需要紧急维护,并且网络在特定窗口中将不稳定。如果您有客户门户,则存档事件,以便所有可能需要将某种本地故障或访问问题与核心网络中断相关联的所有人都可以访问它们。
您如何在这尺寸的网络中获得能见度?
我们已经使用很久的网络接口轮询了SNMP.计算通过接口的八字节数,从中我们创建实时带宽-容量图作为基线,以测量我们的整体网络使用。
每当我们引入具有最新和最好的网络会计套件的供应商时,这些数据就充当了一个审计工具,因为如果应用程序不能详细说明实际的网络资源使用情况,那么它的其他太空时代的图形和建模功能就毫无用处了。
为了补充我们本地开发的基于snmp的工具包,我们使用依赖于其他数据源的商业应用程序来了解我们的整体网络使用情况:
- 来自Q1实验室的Qradar-它是我们主要的网络流量异常检测系统。它利用从带外实时交通监控中获得的基于流的知识,并对网络上当前的活动威胁进行实时分析。它也足够智能,可以与我们的NOC门户接口。因此,当网络管理员登录到门户并观察到我们的id基础设施表明我们可能在本地网络上有一些被破坏的系统,他可以登录到qRadar并观察所有特定于他的地址空间的网络流量。QRadar还提供了与总流量相关的异常数据,因此它可以作为流量计费系统用于显示整个网络中已使用的资源。
- 来自Arbor Networks的Peakflow SP- 我们的主要流量能力计划工具,它从大学边境网关复合体中生成的NetFlow流量数据中获取其信息。我在我的边框上查看这个应用程序的客户带宽统计信息。它做了一层三层交通数据的优秀工作,这在客户奇迹的时候有助于大大帮助,“我的网络的流量配置文件看起来像什么?”其交通工程能力得到了申请作为[边境网关协议靠近大学边界。这允许对目标(自主系统)进行分析,因此当我们考虑商业isp时,我们可以确保选择的运营商最好地服务于哈佛的网络社区。
- 从SolarWinds猎户座-这个基于web的网络故障管理系统从我们的网络中启用snmp的设备收集数据,并提供准确、低成本的视图。它很好地显示了我们的snmp生成的流量图,并为我们提供了大量重要的信息,如CPU和内存使用、配置信息和特定于接口的流量统计数据。
我们利用各种车辆获取交通数据的乐队外管理架构获得所有这些可见性。什么都不应该放在包包的路径中,这不是绝对必要的。
您使用的是使用该网络建立的内容与供应商购买的内容有多少?
约50/50。
给我举几个自产工具的例子,你是如何使用它们的,为什么它们比商业上可用的要好?
SNMPoll是我们主要的网络监控和警报系统。它是一个简单的Perl程序,每分钟从超过450个网络设备和1500个接口对ifOperStatus和sysUptime使用具有拓扑感知的SNMP轮询。如果发现异常,相应的工程师会通过电子邮件通知他们的Treo 650。警告电子邮件包含一个安全的Web链接,允许工程师快速请求与事件相关的其他信息。警报还包含一个名为MobileNOC的应用程序的实时链接,这是NOC门户的Treo-fied版本,专门用于[加速]信息查询和远程故障排除。SNMPoll依赖于另一个程序SNMProwl来完成核心的全网拓扑发现。许多shell脚本和应用程序将SNMProwl的数据用于其他目的,例如自动构建专用DNS区域以方便管理所有核心路由器和交换机接口。另一个Perl程序d3m0n监视其他特别感兴趣的SNMP对象。它们包括ups、环境探测器、BGP会话、关键路由、数据中心内容交换机;机箱的电源、风扇和温度; interface errors and anything else we feel the need to poke at to improve service delivery.
Packetfence是一个开源,基于网络的解决方案,用于开放学术网络提出的问题。它提供了被动或在线操作,网络注册,蠕虫/机器人检测/隔离,用户定向缓解和主动漏洞扫描。它的血统可以追溯到另一个名为mousetrap的实用程序,由UIS网络安全团队开发的一组Perl脚本来捕获用户通过DHCP操作范围。直到2003年夏天,剧本都运行得很好。当爆破虫和Nachi蠕虫在世界各地的学术机构的住宅网络中肆虐时,许多住宅网络的感染率接近80%,我们意识到需要做更多的事情。2003年9月,PacketFence诞生。经过一年的不断开发,它最近已经开源,并在几个大型学术网络上进行生产。PacketFence通过操作客户端系统的地址解析协议缓存来进行操作。
我们的关键警报仪表板安全事件管理器提供本地网络安全通过提供来自核心网络[入侵检测系统]、边界异常检测系统和集中式的存档和实时安全数据,具有更好的整体可见性的管理员syslog基础设施。管理员接收子域地址空间的图形表示,该图形表示根据安全环境的“温度”动态变化。就像在一个电信-红色是坏的,而绿色是好的。有一个最近的警报列表,一个交互式图表显示了您的网络的总体警报量。
最后,我们开发的NOC门户主要是为了简化客户服务交付,并增强所有这些其他管理和会计工具的信息共享能力。客户使用他们的大学登录来访问门户。根据他们是谁,他们被显示为一个独特的视图,允许他们访问管理他们组织的网络存在所需要的工具和信息。从当前的网络设备安装标准,到访问控制列表/FW规则集维护接口,都可以使用。我们所有供应商支持的网络管理系统都是门户化的。
|
|||||||||||||||||||||||||

