ZCube技术原理
1. 扁平化拓扑重构
- 取消Spine层交换机:摒弃传统Clos/ROFT架构的多层堆叠设计,仅保留两组Leaf交换机进行完全二部图互联,将网络直径压缩至2跳(传统架构为3跳),大幅降低通信延迟。
- 唯一最优路径机制:确保全网任意两张GPU之间有且仅有一条最优通信路径,从拓扑层面消除多路径选路导致的流量冲突与局部热点堆积问题。
2. 单轨+多轨混合接入设计
- 双端口网卡动态调度:每张GPU网卡的两个端口分别以”单轨”(连接连续标号GPU)和”多轨”(连接相同标号GPU)方式接入两组交换机,适配PD分离场景下高度动态不对称的KV Cache传输流量。
- 流量负载均衡:通过数学优化的拓扑设计,使数据流在全网交换机间均匀分布,避免传统架构中”总带宽充裕但局部频繁拥塞”的结构性矛盾。
3. 零代码改造部署
- 物理层重构:仅需调整布线方案、IP编址与路由策略,无需更换GPU、服务器或修改业务代码,边际成本接近于零。
- 自动化工具链支持:驭驯网络开发的ZCube控制器、机房布局设计工具及连线校验程序,实现大规模集群的快速平滑迁移。
ZCube核心功能与特色
1. 性能与成本双重突破
- 推理吞吐提升15%以上:在GLM-5.1 coding生产集群中,同等硬件下每秒可多处理15%的API请求,直接提升服务并发能力。
- 尾延迟显著降低:TTFT P99(首Token响应的99分位延迟)下降40.6%,用户端体验更流畅,尤其改善高负载场景下的响应稳定性。
- 网络硬件成本减少33%:万卡级集群可节省2.1亿至6.4亿元的交换机与光模块投资,规模效应随集群扩大而增强。
2. 强扩展性与容错能力
- 超大规模支持:单层400Gb/s网络下可连接16,384张GPU;若采用102.4Tbps交换机,理论规模可达65,536张GPU。
- 容错性提升50%:全网无硬性隔离平面,GPU间不可达概率比传统双平面Clos网络低50%以上,降低链路故障对整体服务的影响。
3. 错误隔离与稳定性
- 结构性拥塞规避:从拓扑设计层面减少由路径选择引发的冲突,避免PFC反压(流量控制反压)导致的性能波动。
- 生产环境验证:在智谱GLM-5.1推理集群中稳定运行两周以上,证明其在真实业务场景中的可靠性。
ZCube典型应用场景
1. 大模型推理服务集群
- PD分离架构优化:针对Prefill(输入处理)与Decode(输出生成)分离部署场景,解决KV Cache跨节点传输的动态不对称流量瓶颈。
- 高并发API服务:适用于服务上百万开发者的大模型平台,通过提升吞吐与降低延迟,保障流量峰值下的响应稳定性。
2. 算力资源受限环境
- 存量资产效率重估:在GPU供应紧张、价格高昂的背景下,通过网络架构升级释放现有算力潜能,避免盲目堆叠硬件。
- 边缘推理场景:为资源受限的边缘节点提供高性价比的网络方案,降低部署成本。
3. 超大规模AI基础设施
- 万卡级集群建设:解决传统架构在超大规模下的扩展瓶颈,支持数十万GPU的线性扩展。
- 训练与推理混合负载:不仅适用于推理场景,其扁平化设计同样能优化AllReduce等训练通信模式。
ZCube与传统架构的关键差异
表格
| 维度 | 传统ROFT/Clos架构 | ZCube架构 |
|---|---|---|
| 网络拓扑 | 多层Spine-Leaf堆叠 | 完全扁平化二部图互联 |
| GPU通信路径 | 多路径选路,易冲突 | 任意两点间唯一最优路径 |
| 网络直径 | 3跳 | 2跳 |
| 硬件成本 | 交换机与光模块数量高 | 成本降低33% |
| 拥塞根源 | 拓扑结构性热点堆积 | 从架构层消除拥塞概率 |
ZCube标志着AI基础设施竞争焦点从”算力堆叠”向”系统效率优化”的迁移。其价值不仅在于性能提升,更在于证明了网络架构创新可直接释放存量算力潜能,为大模型时代的超大规模集群建设提供了新范式。
当前该技术已从学术研究(SIGCOMM 2025)走向产业级落地,成为中美头部厂商同步押注的下一代AI基础设施核心方向。
ZCube的项目地址
项目官网:https://z.ai/blog/zcube
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...




