RedKnot – 小红书研发并开源的长上下文大模型推理引擎

RedKnot是小红书技术团队研发并开源的长上下文大模型推理引擎，通过按注意力头维度优化KV缓存管理，在显著提升推理速度的同时保持高精度，尤其适用于超长文本处理场景。将传统按token粒度的缓存机制重构为头感知（head-aware）的稀疏计算框架，解决了长上下文推理中的内存瓶颈与计算效率问题。

RedKnot核心特点

1. 头分类稀疏机制

将模型的注意力头分为全局头（12%~16%） 和本地头（84%~88%），仅对关键的全局头重计算，本地头直接复用缓存。
全局头负责长距离信息整合，前缀变化时需重算；本地头仅关注局部窗口，缓存可直接复用。

2. 弹性稀疏恢复

浅层保守策略：对误差敏感的浅层网络，采用全量FFN计算和局部注意力修复，确保语义根基稳定。
深层激进策略：对语义已收敛的深层网络，仅重算全局头并启用稀疏FFN，跳过非关键token的完整计算。

3. 跨维度协同优化

同时对齐算法逻辑、计算内核与存储结构，在头、通道、存储三个正交维度实现稀疏化，收益可乘性叠加而非简单相加。

RedKnot技术原理

1. SegPagedAttention存储架构

按头分段存储KV缓存：打破传统按token块的存储方式，将KV缓存按(层, 头)维度分段管理。
物理级稀疏访问：仅加载当前头所需的token数据，避免冗余传输，KV数据传输量最高可减少6.3倍。

2. 位置无关缓存复用

RoPE位置对齐：通过数学变换将离线计算的Key向量从原始位置旋转到实际位置，消除因位置偏移导致的误差。
选择性重算：仅对受前缀变化影响显著的少量token进行交叉注意力计算，而非全量重算。

3. 稀疏FFN动态调度

基于注意力分数筛选token：仅对top-k重要token执行完整FFN计算，其余token直接走残差通路。
突破FFN瓶颈：在短上下文场景（2K~8K token）中，FFN计算占TTFT的57%~62%，稀疏FFN可针对性优化此环节。

RedKnot核心功能

1. 推理效率提升

首字生成时间（TTFT）加速1.6~5.16倍：在128K超长上下文下，DeepSeek-V4-Flash模型的TTFT提升5.16倍。
单卡并发能力提升4.7~7.8倍：32K上下文场景下单卡会话数从4提升至31。

2. 资源消耗优化

预填充阶段FLOPs减少67%~79.5%：显著降低计算资源占用。
KV缓存传输量最高节省6.3倍：减少节点间通信开销，尤其适合分布式推理。

3. 精度保障

推理质量≥稠密模型的95%：在Llama-3.3-70B的HotpotQA任务中，精确匹配（EM）从0.60提升至0.80。
关键token一致性达93%：首字top-1/top-10与稠密路径的一致性远超传统方案。

RedKnot项目地址

GitHub仓库：https://github.com/rednote-machine-learning/RedKnot
arXiv技术论文：https://arxiv.org/pdf/2606.06256

RedKnot应用场景

1. 长文档处理

法律、金融等领域的超长文本分析：直接处理百万字级合同或报告，无需分段截断。
跨文档信息整合：在RAG系统中高效复用预计算的文档块KV缓存。

2. 智能体（Agent）任务

长程交互规划：支持400+轮对话的上下文维护，避免因上下文过长导致的决策失真。
实时工具调用：通过稀疏FFN加速短上下文场景的响应，弥补传统方案对Agent任务的优化盲区。

3. 国产化算力适配

国产芯片集群部署：针对显存带宽受限的硬件环境优化，降低长文本推理对高端GPU的依赖。
高并发服务场景：在有限算力下提升单机服务容量，适用于企业级AI应用部署。

RedKnot同类产品对比

表格

特性维度	RedKnot	vLLM
架构特点	打破传统 Token 维度缓存，采用注意力头维度拆解 KV Cache；引入“头分类稀疏”、“稀疏 FFN”及“SegPagedAttention”机制。	基于 PagedAttention 技术，通过非连续内存管理解决 KV Cache 碎片化问题；支持连续批处理（Continuous Batching）。
适用场景	专注于超长上下文（Long Context）推理任务，如 128K+ 长度的文档处理、长对话历史记忆等。	通用型大模型推理服务，适用于高并发、短至中等长度文本的生成场景，生态兼容性极广。
性能优势	长文本效率极高：8卡 H800 环境下，首字生成时间加速 1.6-3.54 倍，单卡并发提升 4.7-7.8 倍；预填充 FLOPs 削减 67%-79.5%。	显存利用率高：显著减少内存浪费，提升整体吞吐量；在常规长度任务中具备极高的稳定性和广泛的模型支持度。

RedKnot的核心价值在于重构了长上下文推理的底层范式，从“按token管理缓存”转向“按头动态调度计算”，既解决了传统KV缓存机制在长文本场景下的线性内存增长问题，又避免了因过度简化导致的精度损失。其技术思路对构建轻量化、高并发的产业级AI系统具有重要参考意义，尤其适合需要处理超长文本且对推理成本敏感的场景。