ZCube – 智谱联合清华大学开发的新型AI集群网络架构

ZCube是由智谱联合清华大学、驭驯网络开发的新型AI集群网络架构,专为解决大模型推理场景中的结构性网络拥塞问题而设计。

其核心突破在于彻底重构网络拓扑,通过取消传统Clos架构的Spine层、采用扁平化二部图互联设计,在不新增GPU硬件、不修改软件代码的前提下,实现推理吞吐提升15%以上、首Token尾延迟降低40.6%、网络硬件成本减少33% 的三重优化。

该技术已成功落地于智谱GLM-5.1千卡级推理集群,并被ACM SIGCOMM 2025顶会评价为”显著改变整个行业对网络的认知方式”。

ZCube - 智谱联合清华大学开发的新型AI集群网络架构

图1:ZCube架构相比ROFT架构可以有效避免结构性网络拥塞


ZCube技术原理

1. 扁平化拓扑重构

  • 取消Spine层交换机:摒弃传统Clos/ROFT架构的多层堆叠设计,仅保留两组Leaf交换机进行完全二部图互联,将网络直径压缩至2跳(传统架构为3跳),大幅降低通信延迟
  • 唯一最优路径机制:确保全网任意两张GPU之间有且仅有一条最优通信路径,从拓扑层面消除多路径选路导致的流量冲突与局部热点堆积问题

2. 单轨+多轨混合接入设计

  • 双端口网卡动态调度:每张GPU网卡的两个端口分别以”单轨”(连接连续标号GPU)和”多轨”(连接相同标号GPU)方式接入两组交换机,适配PD分离场景下高度动态不对称的KV Cache传输流量
  • 流量负载均衡:通过数学优化的拓扑设计,使数据流在全网交换机间均匀分布,避免传统架构中”总带宽充裕但局部频繁拥塞”的结构性矛盾

3. 零代码改造部署

  • 物理层重构:仅需调整布线方案、IP编址与路由策略,无需更换GPU、服务器或修改业务代码,边际成本接近于零
  • 自动化工具链支持:驭驯网络开发的ZCube控制器、机房布局设计工具及连线校验程序,实现大规模集群的快速平滑迁移

ZCube核心功能与特色

1. 性能与成本双重突破

  • 推理吞吐提升15%以上:在GLM-5.1 coding生产集群中,同等硬件下每秒可多处理15%的API请求,直接提升服务并发能力
  • 尾延迟显著降低:TTFT P99(首Token响应的99分位延迟)下降40.6%,用户端体验更流畅,尤其改善高负载场景下的响应稳定性
  • 网络硬件成本减少33%:万卡级集群可节省2.1亿至6.4亿元的交换机与光模块投资,规模效应随集群扩大而增强

2. 强扩展性与容错能力

  • 超大规模支持:单层400Gb/s网络下可连接16,384张GPU;若采用102.4Tbps交换机,理论规模可达65,536张GPU
  • 容错性提升50%:全网无硬性隔离平面,GPU间不可达概率比传统双平面Clos网络低50%以上,降低链路故障对整体服务的影响

3. 错误隔离与稳定性

  • 结构性拥塞规避:从拓扑设计层面减少由路径选择引发的冲突,避免PFC反压(流量控制反压)导致的性能波动
  • 生产环境验证:在智谱GLM-5.1推理集群中稳定运行两周以上,证明其在真实业务场景中的可靠性

ZCube典型应用场景

1. 大模型推理服务集群

  • PD分离架构优化:针对Prefill(输入处理)与Decode(输出生成)分离部署场景,解决KV Cache跨节点传输的动态不对称流量瓶颈
  • 高并发API服务:适用于服务上百万开发者的大模型平台,通过提升吞吐与降低延迟,保障流量峰值下的响应稳定性

2. 算力资源受限环境

  • 存量资产效率重估:在GPU供应紧张、价格高昂的背景下,通过网络架构升级释放现有算力潜能,避免盲目堆叠硬件
  • 边缘推理场景:为资源受限的边缘节点提供高性价比的网络方案,降低部署成本

3. 超大规模AI基础设施

  • 万卡级集群建设:解决传统架构在超大规模下的扩展瓶颈,支持数十万GPU的线性扩展
  • 训练与推理混合负载:不仅适用于推理场景,其扁平化设计同样能优化AllReduce等训练通信模式

ZCube与传统架构的关键差异

表格

维度传统ROFT/Clos架构ZCube架构
网络拓扑多层Spine-Leaf堆叠完全扁平化二部图互联
GPU通信路径多路径选路,易冲突任意两点间唯一最优路径
网络直径3跳2跳
硬件成本交换机与光模块数量高成本降低33%
拥塞根源拓扑结构性热点堆积从架构层消除拥塞概率

ZCube标志着AI基础设施竞争焦点从”算力堆叠”向”系统效率优化”的迁移。其价值不仅在于性能提升,更在于证明了网络架构创新可直接释放存量算力潜能,为大模型时代的超大规模集群建设提供了新范式。

当前该技术已从学术研究(SIGCOMM 2025)走向产业级落地,成为中美头部厂商同步押注的下一代AI基础设施核心方向。

ZCube的项目地址

项目官网:https://z.ai/blog/zcube

© 版权声明

相关文章

暂无评论

none
暂无评论...