ZCube – 智谱联合清华大学开发的新型AI集群网络架构

AI最新项目2个月前发布文明旁观者

77 00

ZCube是由智谱联合清华大学、驭驯网络开发的新型AI集群网络架构，专为解决大模型推理场景中的结构性网络拥塞问题而设计。

其核心突破在于彻底重构网络拓扑，通过取消传统Clos架构的Spine层、采用扁平化二部图互联设计，在不新增GPU硬件、不修改软件代码的前提下，实现推理吞吐提升15%以上、首Token尾延迟降低40.6%、网络硬件成本减少33% 的三重优化。

该技术已成功落地于智谱GLM-5.1千卡级推理集群，并被ACM SIGCOMM 2025顶会评价为”显著改变整个行业对网络的认知方式”。

ZCube - 智谱联合清华大学开发的新型AI集群网络架构

图1：ZCube架构相比ROFT架构可以有效避免结构性网络拥塞

ZCube技术原理

1. 扁平化拓扑重构

取消Spine层交换机：摒弃传统Clos/ROFT架构的多层堆叠设计，仅保留两组Leaf交换机进行完全二部图互联，将网络直径压缩至2跳（传统架构为3跳），大幅降低通信延迟。
唯一最优路径机制：确保全网任意两张GPU之间有且仅有一条最优通信路径，从拓扑层面消除多路径选路导致的流量冲突与局部热点堆积问题。

2. 单轨+多轨混合接入设计

双端口网卡动态调度：每张GPU网卡的两个端口分别以”单轨”（连接连续标号GPU）和”多轨”（连接相同标号GPU）方式接入两组交换机，适配PD分离场景下高度动态不对称的KV Cache传输流量。
流量负载均衡：通过数学优化的拓扑设计，使数据流在全网交换机间均匀分布，避免传统架构中”总带宽充裕但局部频繁拥塞”的结构性矛盾。

3. 零代码改造部署

物理层重构：仅需调整布线方案、IP编址与路由策略，无需更换GPU、服务器或修改业务代码，边际成本接近于零。
自动化工具链支持：驭驯网络开发的ZCube控制器、机房布局设计工具及连线校验程序，实现大规模集群的快速平滑迁移。

ZCube核心功能与特色

1. 性能与成本双重突破

推理吞吐提升15%以上：在GLM-5.1 coding生产集群中，同等硬件下每秒可多处理15%的API请求，直接提升服务并发能力。
尾延迟显著降低：TTFT P99（首Token响应的99分位延迟）下降40.6%，用户端体验更流畅，尤其改善高负载场景下的响应稳定性。
网络硬件成本减少33%：万卡级集群可节省2.1亿至6.4亿元的交换机与光模块投资，规模效应随集群扩大而增强。

2. 强扩展性与容错能力

超大规模支持：单层400Gb/s网络下可连接16,384张GPU；若采用102.4Tbps交换机，理论规模可达65,536张GPU。
容错性提升50%：全网无硬性隔离平面，GPU间不可达概率比传统双平面Clos网络低50%以上，降低链路故障对整体服务的影响。

3. 错误隔离与稳定性

结构性拥塞规避：从拓扑设计层面减少由路径选择引发的冲突，避免PFC反压（流量控制反压）导致的性能波动。
生产环境验证：在智谱GLM-5.1推理集群中稳定运行两周以上，证明其在真实业务场景中的可靠性。

ZCube典型应用场景

1. 大模型推理服务集群

PD分离架构优化：针对Prefill（输入处理）与Decode（输出生成）分离部署场景，解决KV Cache跨节点传输的动态不对称流量瓶颈。
高并发API服务：适用于服务上百万开发者的大模型平台，通过提升吞吐与降低延迟，保障流量峰值下的响应稳定性。

2. 算力资源受限环境

存量资产效率重估：在GPU供应紧张、价格高昂的背景下，通过网络架构升级释放现有算力潜能，避免盲目堆叠硬件。
边缘推理场景：为资源受限的边缘节点提供高性价比的网络方案，降低部署成本。

3. 超大规模AI基础设施

万卡级集群建设：解决传统架构在超大规模下的扩展瓶颈，支持数十万GPU的线性扩展。
训练与推理混合负载：不仅适用于推理场景，其扁平化设计同样能优化AllReduce等训练通信模式。

ZCube与传统架构的关键差异

表格

维度	传统ROFT/Clos架构	ZCube架构
网络拓扑	多层Spine-Leaf堆叠	完全扁平化二部图互联
GPU通信路径	多路径选路，易冲突	任意两点间唯一最优路径
网络直径	3跳	2跳
硬件成本	交换机与光模块数量高	成本降低33%
拥塞根源	拓扑结构性热点堆积	从架构层消除拥塞概率

ZCube标志着AI基础设施竞争焦点从”算力堆叠”向”系统效率优化”的迁移。其价值不仅在于性能提升，更在于证明了网络架构创新可直接释放存量算力潜能，为大模型时代的超大规模集群建设提供了新范式。

当前该技术已从学术研究(SIGCOMM 2025)走向产业级落地，成为中美头部厂商同步押注的下一代AI基础设施核心方向。

ZCube的项目地址

项目官网：https://z.ai/blog/zcube

© 版权声明

文章版权归作者所有，未经允许请勿转载。

为这篇文章评分

0.0/ 10

0 人评价

点击⭐️进行评分

相关文章

Open Code Review – 阿里巴巴开源的AI驱动代码审查工具

Open Code Review – 阿里巴巴开源的AI驱动代码审查工具

4周前

0750

Xiaomi Miloco 2.0 – 小米发布的全屋智能AI开源方案

Xiaomi Miloco 2.0 – 小米发布的全屋智能AI开源方案

3周前

0560

Xiaomi Auto World Model – 小米发布的世界模型全新框架

Xiaomi Auto World Model – 小米发布的世界模型全新框架

1个月前

0660

LFM2.5-1.2B – Liquid AI推出的12亿参数轻量级AI模型家族

LFM2.5-1.2B – Liquid AI推出的12亿参数轻量级AI模型家族

1个月前

0720

暂无评论

none

暂无评论...