Cisco增加两个高端可编程单片设备,支持大规模GPU集群AI/ML工作

Cisco正在打包新高端程序硅一号处理器旨在支持企业和超标的大规模人工智能/ML学习基础
公司加5nm512TbpsSilcononeG200和25.6TbpsG202实现时使用公共操作系统、P4可编程转发码和SDK
新建设备位于Silicon One家族顶端, 带入网络增强令它们最理想地要求AI/ML部署或其他高度分布式应用,
Chopra表示:「我们正在经历行业的巨变, 在那里我们常建出合理小高性能计算集群,AI/ML模型从需要数位GPUs系统需要数万并行串联GPU数和网络规模前所未闻
新的Silcon一号增强程序包括P4编程并行处理器,它每秒可启动4 350亿次查询
Chopra表示:「我们拥有完全共享包缓冲区,与个人输入输出端口分配缓冲区形成对比,这意味着缓冲取决于包面向哪个端口表示你不太能通过交通暴发写作 并更有可能投放包 真正降低AI/ML性能
silcon One设备可支持512Ethernet端口允许客户搭建32k400GPU AI/ML集群比支持该集群所需的其他硅设备少40%
核心一系统支持增强以太网特征如改善流量控制、拥塞感知和避免
系统还包括高级负载平衡功能和分包测量法,通过多GPU或开关传播交通以避免拥塞并提升延缓性硬件链路故障恢复也有助于确保网络以峰值运行,公司表示
合并这些增强以太网技术并取一步最终让客户搭建Cisco称它为附则布局
Chopra表示,定时机物理组件-芯片-光学交换机-像大模版底盘-绑在一起并相互交流以提供最优调度行为归根结底是高带宽吞吐量, 特别是AI/ML等流时, 这使得工作完成时间低得多, 即GPU运行效率高得多。”
Chopra说,用Silicon One设备软件客户可按需要部署多或少这些特征
Cisco是一个不断扩大的AI网络市场的一部分,它包括Broadcom、Marvell、Arista等预期到2027年将达10B元的市场,比2B今天值高2B最新显示博客650组
过去两年内AI网络蓬勃发展并视AI/ML为大规模联网契机, 并成为预测中数据中心网络增长的主驱动程序之一,AI/ML对网络影响的关键是 巨大的带宽AI模型需要培训 新的工作量 强推理解决方案未来10年多位垂直数字化工作由AI提供
Cisco Silicon OneG200和G202目前正由身份不明客户测试,