Keye-VL-2.0-30B-A3B – 快手发布的30B级多模态大模型

Keye-VL-2.0-30B-A3B是快手发布的30B级多模态大模型，其核心突破在于首次将DSA机制引入多模态领域，实现256K超长上下文的高效处理能力，并在长视频时序理解任务中达到接近无损的推理精度，多项指标超越Gemini 3 Flash等闭源模型。

该模型通过底层注意力机制革新，解决了行业长期存在的“输入帧数越多准确率越低”问题，同时内置Agent协作机制，使多模态模型从“观察者”进化为能执行复杂任务的“行动者”。

1. DSA注意力机制的多模态落地

算力效率革命：
传统自注意力机制处理长视频时计算复杂度呈平方级增长，而DSA通过稀疏化关键信息筛选与动态特征聚合，将长序列Prefill（预填充）阶段的计算成本降低50%，Decode阶段成本随序列延长保持平缓增长，显著缓解硬件压力。
突破“长上下文衰减”魔咒：
在VideoMME V2测试中，当输入帧数从64帧增至512帧时，模型平均准确率（ACC）逆势从35.34%提升至42.44%，非线性得分同步从18.54升至24.19，彻底扭转行业普遍存在的准确率随帧数增加而下降的趋势。

2. 时空统一编码与长时序推理

256K超长上下文支持：
模型通过3D RoPE位置编码统一处理文本、图像和视频数据，结合时间戳对齐技术，精准捕捉小时级长视频中的动态规律与因果关系。
细粒度时序感知能力：
在TimeLens基准测试中，模型以58.5的mIoU超越Gemini 3 Flash（57.0）和Gemini 2.5 Pro（58.1），在视频动作定位任务中实现接近人类水平的帧级精度。

1. 权威基准测试结果

长视频理解（LongVideoBench）：
模型在长达数十分钟的复杂视频理解任务中取得74.10分，大幅领先同级别开源模型（如Model A 35B-A3B的61.6分），跨级逼近顶级闭源模型水平。
多模态综合能力（Video-MME v2）：
以70.1的非线性得分显著优于Gemini 3 Flash（49.5），证明其在复杂逻辑推理任务中的优势。

2. 与闭源模型的关键差异

效率-精度平衡：
作为30B参数模型，其视频理解能力媲美Gemini 3 Flash等千亿级闭源模型，但推理成本因DSA优化降低3.4倍，更适合平价硬件部署。
业务场景适配性：
专为短视频平台设计，对中文内容、高动态镜头切换场景的理解显著优于通用模型，例如能精准识别“冰雪融化导致雪雕坍塌”等复杂因果链。

1. 视频生成与内容生产

可灵AI商业化落地：
作为快手自研视频生成工具的底层引擎，2025年12月单月收入突破2000万美元，年化收入运行率达2.4亿美元。Keye-VL-2.0的强化推理能力使其能精准解析用户提示词，生成符合时序逻辑的高质量视频。
智能剪辑与高光提取：
自动识别视频关键帧并生成分镜摘要，例如在8分钟纪录片中精准切分8个核心场景，关联“图纸分歧→造雪机施工→航拍对比”等叙事逻辑。

2. Agent协作与任务执行

系统级任务规划：
内置Agent机制支持多步骤任务分解，例如用户指令“生成股票分析台”可被拆解为“获取实时数据→编写分析脚本→固化为桌面工具”，无需重复消耗算力。
工具调用能力：
在TAU2-Bench测试中得分82.58，能自主调用搜索、代码执行等工具完成“查询门店距离→创建订单”等复杂流程。

1. 训练体系创新

专属Infra系统：
通过ExtraIO架构消除视频解码瓶颈，结合ViT-LM异构并行与FlashInfer深度调优，将长序列训练性能提升至开源方案的2倍。
两阶段强化推理训练：
采用Mix-mode思维链与多思考模式强化学习（RL），显著提升复杂任务中的因果推理能力。