RedKnot是小红书技术团队研发并开源的长上下文大模型推理引擎,通过按注意力头维度优化KV缓存管理,在显著提升推理速度的同时保持高精度,尤其适用于超长文本处理场景。将传统按token粒度的缓存机制重构为头感知(head-aware)的稀疏计算框架,解决了长上下文推理中的内存瓶颈与计算效率问题。

RedKnot核心特点
1. 头分类稀疏机制
- 将模型的注意力头分为全局头(12%~16%) 和本地头(84%~88%),仅对关键的全局头重计算,本地头直接复用缓存。
- 全局头负责长距离信息整合,前缀变化时需重算;本地头仅关注局部窗口,缓存可直接复用。
2. 弹性稀疏恢复
- 浅层保守策略:对误差敏感的浅层网络,采用全量FFN计算和局部注意力修复,确保语义根基稳定。
- 深层激进策略:对语义已收敛的深层网络,仅重算全局头并启用稀疏FFN,跳过非关键token的完整计算。
3. 跨维度协同优化
- 同时对齐算法逻辑、计算内核与存储结构,在头、通道、存储三个正交维度实现稀疏化,收益可乘性叠加而非简单相加。
RedKnot技术原理
1. SegPagedAttention存储架构
- 按头分段存储KV缓存:打破传统按token块的存储方式,将KV缓存按
(层, 头)维度分段管理。 - 物理级稀疏访问:仅加载当前头所需的token数据,避免冗余传输,KV数据传输量最高可减少6.3倍。
2. 位置无关缓存复用
- RoPE位置对齐:通过数学变换将离线计算的Key向量从原始位置旋转到实际位置,消除因位置偏移导致的误差。
- 选择性重算:仅对受前缀变化影响显著的少量token进行交叉注意力计算,而非全量重算。
3. 稀疏FFN动态调度
- 基于注意力分数筛选token:仅对top-k重要token执行完整FFN计算,其余token直接走残差通路。
- 突破FFN瓶颈:在短上下文场景(2K~8K token)中,FFN计算占TTFT的57%~62%,稀疏FFN可针对性优化此环节。
RedKnot核心功能
1. 推理效率提升
- 首字生成时间(TTFT)加速1.6~5.16倍:在128K超长上下文下,DeepSeek-V4-Flash模型的TTFT提升5.16倍。
- 单卡并发能力提升4.7~7.8倍:32K上下文场景下单卡会话数从4提升至31。
2. 资源消耗优化
- 预填充阶段FLOPs减少67%~79.5%:显著降低计算资源占用。
- KV缓存传输量最高节省6.3倍:减少节点间通信开销,尤其适合分布式推理。
3. 精度保障
- 推理质量≥稠密模型的95%:在Llama-3.3-70B的HotpotQA任务中,精确匹配(EM)从0.60提升至0.80。
- 关键token一致性达93%:首字top-1/top-10与稠密路径的一致性远超传统方案。
RedKnot项目地址
- GitHub仓库:https://github.com/rednote-machine-learning/RedKnot
- arXiv技术论文:https://arxiv.org/pdf/2606.06256
RedKnot应用场景
1. 长文档处理
- 法律、金融等领域的超长文本分析:直接处理百万字级合同或报告,无需分段截断。
- 跨文档信息整合:在RAG系统中高效复用预计算的文档块KV缓存。
2. 智能体(Agent)任务
- 长程交互规划:支持400+轮对话的上下文维护,避免因上下文过长导致的决策失真。
- 实时工具调用:通过稀疏FFN加速短上下文场景的响应,弥补传统方案对Agent任务的优化盲区。
3. 国产化算力适配
- 国产芯片集群部署:针对显存带宽受限的硬件环境优化,降低长文本推理对高端GPU的依赖。
- 高并发服务场景:在有限算力下提升单机服务容量,适用于企业级AI应用部署。
RedKnot同类产品对比
表格
| 特性维度 | RedKnot | vLLM |
|---|---|---|
| 架构特点 | 打破传统 Token 维度缓存,采用注意力头维度拆解 KV Cache;引入“头分类稀疏”、“稀疏 FFN”及“SegPagedAttention”机制。 | 基于 PagedAttention 技术,通过非连续内存管理解决 KV Cache 碎片化问题;支持连续批处理(Continuous Batching)。 |
| 适用场景 | 专注于超长上下文(Long Context)推理任务,如 128K+ 长度的文档处理、长对话历史记忆等。 | 通用型大模型推理服务,适用于高并发、短至中等长度文本的生成场景,生态兼容性极广。 |
| 性能优势 | 长文本效率极高:8卡 H800 环境下,首字生成时间加速 1.6-3.54 倍,单卡并发提升 4.7-7.8 倍;预填充 FLOPs 削减 67%-79.5%。 | 显存利用率高:显著减少内存浪费,提升整体吞吐量;在常规长度任务中具备极高的稳定性和广泛的模型支持度。 |
RedKnot的核心价值在于重构了长上下文推理的底层范式,从“按token管理缓存”转向“按头动态调度计算”,既解决了传统KV缓存机制在长文本场景下的线性内存增长问题,又避免了因过度简化导致的精度损失。其技术思路对构建轻量化、高并发的产业级AI系统具有重要参考意义,尤其适合需要处理超长文本且对推理成本敏感的场景。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



