RedKnot – 小红书研发并开源的长上下文大模型推理引擎

RedKnot是小红书技术团队研发并开源的长上下文大模型推理引擎,通过按注意力头维度优化KV缓存管理,在显著提升推理速度的同时保持高精度,尤其适用于超长文本处理场景。将传统按token粒度的缓存机制重构为头感知(head-aware)的稀疏计算框架,解决了长上下文推理中的内存瓶颈与计算效率问题。

RedKnot - 小红书研发并开源的长上下文大模型推理引擎

RedKnot核心特点

1. 头分类稀疏机制

  • 将模型的注意力头分为全局头(12%~16%) 和本地头(84%~88%),仅对关键的全局头重计算,本地头直接复用缓存。
  • 全局头负责长距离信息整合,前缀变化时需重算;本地头仅关注局部窗口,缓存可直接复用。

2. 弹性稀疏恢复

  • 浅层保守策略:对误差敏感的浅层网络,采用全量FFN计算和局部注意力修复,确保语义根基稳定。
  • 深层激进策略:对语义已收敛的深层网络,仅重算全局头并启用稀疏FFN,跳过非关键token的完整计算。

3. 跨维度协同优化

  • 同时对齐算法逻辑、计算内核与存储结构,在头、通道、存储三个正交维度实现稀疏化,收益可乘性叠加而非简单相加。

RedKnot技术原理

1. SegPagedAttention存储架构

  • 按头分段存储KV缓存:打破传统按token块的存储方式,将KV缓存按(层, 头)维度分段管理。
  • 物理级稀疏访问:仅加载当前头所需的token数据,避免冗余传输,KV数据传输量最高可减少6.3倍

2. 位置无关缓存复用

  • RoPE位置对齐:通过数学变换将离线计算的Key向量从原始位置旋转到实际位置,消除因位置偏移导致的误差
  • 选择性重算:仅对受前缀变化影响显著的少量token进行交叉注意力计算,而非全量重算。

3. 稀疏FFN动态调度

  • 基于注意力分数筛选token:仅对top-k重要token执行完整FFN计算,其余token直接走残差通路。
  • 突破FFN瓶颈:在短上下文场景(2K~8K token)中,FFN计算占TTFT的57%~62%,稀疏FFN可针对性优化此环节。

RedKnot核心功能

1. 推理效率提升

  • 首字生成时间(TTFT)加速1.6~5.16倍:在128K超长上下文下,DeepSeek-V4-Flash模型的TTFT提升5.16倍。
  • 单卡并发能力提升4.7~7.8倍:32K上下文场景下单卡会话数从4提升至31。

2. 资源消耗优化

  • 预填充阶段FLOPs减少67%~79.5%:显著降低计算资源占用。
  • KV缓存传输量最高节省6.3倍:减少节点间通信开销,尤其适合分布式推理。

3. 精度保障

  • 推理质量≥稠密模型的95%:在Llama-3.3-70B的HotpotQA任务中,精确匹配(EM)从0.60提升至0.80。
  • 关键token一致性达93%:首字top-1/top-10与稠密路径的一致性远超传统方案。

RedKnot项目地址

  • GitHub仓库:https://github.com/rednote-machine-learning/RedKnot
  • arXiv技术论文:https://arxiv.org/pdf/2606.06256

RedKnot应用场景

1. 长文档处理

  • 法律、金融等领域的超长文本分析:直接处理百万字级合同或报告,无需分段截断
  • 跨文档信息整合:在RAG系统中高效复用预计算的文档块KV缓存。

2. 智能体(Agent)任务

  • 长程交互规划:支持400+轮对话的上下文维护,避免因上下文过长导致的决策失真。
  • 实时工具调用:通过稀疏FFN加速短上下文场景的响应,弥补传统方案对Agent任务的优化盲区。

3. 国产化算力适配

  • 国产芯片集群部署:针对显存带宽受限的硬件环境优化,降低长文本推理对高端GPU的依赖
  • 高并发服务场景:在有限算力下提升单机服务容量,适用于企业级AI应用部署。

RedKnot同类产品对比

表格

特性维度RedKnotvLLM
架构特点打破传统 Token 维度缓存,采用注意力头维度拆解 KV Cache;引入“头分类稀疏”、“稀疏 FFN”及“SegPagedAttention”机制。基于 PagedAttention 技术,通过非连续内存管理解决 KV Cache 碎片化问题;支持连续批处理(Continuous Batching)。
适用场景专注于超长上下文(Long Context)推理任务,如 128K+ 长度的文档处理、长对话历史记忆等。通用型大模型推理服务,适用于高并发、短至中等长度文本的生成场景,生态兼容性极广。
性能优势长文本效率极高:8卡 H800 环境下,首字生成时间加速 1.6-3.54 倍,单卡并发提升 4.7-7.8 倍;预填充 FLOPs 削减 67%-79.5%。显存利用率高:显著减少内存浪费,提升整体吞吐量;在常规长度任务中具备极高的稳定性和广泛的模型支持度。

RedKnot的核心价值在于重构了长上下文推理的底层范式,从“按token管理缓存”转向“按头动态调度计算”,既解决了传统KV缓存机制在长文本场景下的线性内存增长问题,又避免了因过度简化导致的精度损失。其技术思路对构建轻量化、高并发的产业级AI系统具有重要参考意义,尤其适合需要处理超长文本且对推理成本敏感的场景。

© 版权声明
为这篇文章评分
10.0/ 10
2 人评价
点击⭐️进行评分

相关文章

暂无评论

none
暂无评论...