Keye-VL-2.0-30B-A3B是快手发布的30B级多模态大模型,其核心突破在于首次将DSA机制引入多模态领域,实现256K超长上下文的高效处理能力,并在长视频时序理解任务中达到接近无损的推理精度,多项指标超越Gemini 3 Flash等闭源模型。
该模型通过底层注意力机制革新,解决了行业长期存在的“输入帧数越多准确率越低”问题,同时内置Agent协作机制,使多模态模型从“观察者”进化为能执行复杂任务的“行动者”。

Keye-VL-2.0-30B-A3B技术原理
1. DSA注意力机制的多模态落地
- 算力效率革命:
传统自注意力机制处理长视频时计算复杂度呈平方级增长,而DSA通过稀疏化关键信息筛选与动态特征聚合,将长序列Prefill(预填充)阶段的计算成本降低50%,Decode阶段成本随序列延长保持平缓增长,显著缓解硬件压力。 - 突破“长上下文衰减”魔咒:
在VideoMME V2测试中,当输入帧数从64帧增至512帧时,模型平均准确率(ACC)逆势从35.34%提升至42.44%,非线性得分同步从18.54升至24.19,彻底扭转行业普遍存在的准确率随帧数增加而下降的趋势。
2. 时空统一编码与长时序推理
- 256K超长上下文支持:
模型通过3D RoPE位置编码统一处理文本、图像和视频数据,结合时间戳对齐技术,精准捕捉小时级长视频中的动态规律与因果关系。 - 细粒度时序感知能力:
在TimeLens基准测试中,模型以58.5的mIoU超越Gemini 3 Flash(57.0)和Gemini 2.5 Pro(58.1),在视频动作定位任务中实现接近人类水平的帧级精度。
Keye-VL-2.0-30B-A3B表现与行业对比
1. 权威基准测试结果
- 长视频理解(LongVideoBench):
模型在长达数十分钟的复杂视频理解任务中取得74.10分,大幅领先同级别开源模型(如Model A 35B-A3B的61.6分),跨级逼近顶级闭源模型水平。 - 多模态综合能力(Video-MME v2):
以70.1的非线性得分显著优于Gemini 3 Flash(49.5),证明其在复杂逻辑推理任务中的优势。
2. 与闭源模型的关键差异
- 效率-精度平衡:
作为30B参数模型,其视频理解能力媲美Gemini 3 Flash等千亿级闭源模型,但推理成本因DSA优化降低3.4倍,更适合平价硬件部署。 - 业务场景适配性:
专为短视频平台设计,对中文内容、高动态镜头切换场景的理解显著优于通用模型,例如能精准识别“冰雪融化导致雪雕坍塌”等复杂因果链。
Keye-VL-2.0-30B-A3B应用场景
1. 视频生成与内容生产
- 可灵AI商业化落地:
作为快手自研视频生成工具的底层引擎,2025年12月单月收入突破2000万美元,年化收入运行率达2.4亿美元。Keye-VL-2.0的强化推理能力使其能精准解析用户提示词,生成符合时序逻辑的高质量视频。 - 智能剪辑与高光提取:
自动识别视频关键帧并生成分镜摘要,例如在8分钟纪录片中精准切分8个核心场景,关联“图纸分歧→造雪机施工→航拍对比”等叙事逻辑。
2. Agent协作与任务执行
- 系统级任务规划:
内置Agent机制支持多步骤任务分解,例如用户指令“生成股票分析台”可被拆解为“获取实时数据→编写分析脚本→固化为桌面工具”,无需重复消耗算力。 - 工具调用能力:
在TAU2-Bench测试中得分82.58,能自主调用搜索、代码执行等工具完成“查询门店距离→创建订单”等复杂流程。
技术生态与开源进展
1. 训练体系创新
- 专属Infra系统:
通过ExtraIO架构消除视频解码瓶颈,结合ViT-LM异构并行与FlashInfer深度调优,将长序列训练性能提升至开源方案的2倍。 - 两阶段强化推理训练:
采用Mix-mode思维链与多思考模式强化学习(RL),显著提升复杂任务中的因果推理能力。
2. 开源与落地进展
- 模型权重开放:
已通过Hugging Face开源模型权重,并提供完整训练代码与评估工具。 - 业务整合深度:
技术已覆盖快手208个行业的短视频生产、直播运营及广告投流环节,直接驱动人货匹配效率提升。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



