Keye-VL-2.0-30B-A3B – 快手发布的30B级多模态大模型

Keye-VL-2.0-30B-A3B是快手发布的30B级多模态大模型,其核心突破在于首次将DSA机制引入多模态领域,实现256K超长上下文的高效处理能力,并在长视频时序理解任务中达到接近无损的推理精度,多项指标超越Gemini 3 Flash等闭源模型

该模型通过底层注意力机制革新,解决了行业长期存在的“输入帧数越多准确率越低”问题,同时内置Agent协作机制,使多模态模型从“观察者”进化为能执行复杂任务的“行动者”。

Keye-VL-2.0-30B-A3B - 快手发布的30B级多模态大模型

Keye-VL-2.0-30B-A3B技术原理

1. DSA注意力机制的多模态落地

  • 算力效率革命
    传统自注意力机制处理长视频时计算复杂度呈平方级增长,而DSA通过稀疏化关键信息筛选动态特征聚合,将长序列Prefill(预填充)阶段的计算成本降低50%,Decode阶段成本随序列延长保持平缓增长,显著缓解硬件压力
  • 突破“长上下文衰减”魔咒
    在VideoMME V2测试中,当输入帧数从64帧增至512帧时,模型平均准确率(ACC)逆势从35.34%提升至42.44%,非线性得分同步从18.54升至24.19,彻底扭转行业普遍存在的准确率随帧数增加而下降的趋势

2. 时空统一编码与长时序推理

  • 256K超长上下文支持
    模型通过3D RoPE位置编码统一处理文本、图像和视频数据,结合时间戳对齐技术,精准捕捉小时级长视频中的动态规律与因果关系
  • 细粒度时序感知能力
    在TimeLens基准测试中,模型以58.5的mIoU超越Gemini 3 Flash(57.0)和Gemini 2.5 Pro(58.1),在视频动作定位任务中实现接近人类水平的帧级精度

Keye-VL-2.0-30B-A3B表现与行业对比

1. 权威基准测试结果

  • 长视频理解(LongVideoBench)
    模型在长达数十分钟的复杂视频理解任务中取得74.10分,大幅领先同级别开源模型(如Model A 35B-A3B的61.6分),跨级逼近顶级闭源模型水平
  • 多模态综合能力(Video-MME v2)
    70.1的非线性得分显著优于Gemini 3 Flash(49.5),证明其在复杂逻辑推理任务中的优势。

2. 与闭源模型的关键差异

  • 效率-精度平衡
    作为30B参数模型,其视频理解能力媲美Gemini 3 Flash等千亿级闭源模型,但推理成本因DSA优化降低3.4倍,更适合平价硬件部署
  • 业务场景适配性
    专为短视频平台设计,对中文内容、高动态镜头切换场景的理解显著优于通用模型,例如能精准识别“冰雪融化导致雪雕坍塌”等复杂因果链

Keye-VL-2.0-30B-A3B应用场景

1. 视频生成与内容生产

  • 可灵AI商业化落地
    作为快手自研视频生成工具的底层引擎,2025年12月单月收入突破2000万美元,年化收入运行率达2.4亿美元。Keye-VL-2.0的强化推理能力使其能精准解析用户提示词,生成符合时序逻辑的高质量视频
  • 智能剪辑与高光提取
    自动识别视频关键帧并生成分镜摘要,例如在8分钟纪录片中精准切分8个核心场景,关联“图纸分歧→造雪机施工→航拍对比”等叙事逻辑。

2. Agent协作与任务执行

  • 系统级任务规划
    内置Agent机制支持多步骤任务分解,例如用户指令“生成股票分析台”可被拆解为“获取实时数据→编写分析脚本→固化为桌面工具”,无需重复消耗算力
  • 工具调用能力
    在TAU2-Bench测试中得分82.58,能自主调用搜索、代码执行等工具完成“查询门店距离→创建订单”等复杂流程

技术生态与开源进展

1. 训练体系创新

  • 专属Infra系统
    通过ExtraIO架构消除视频解码瓶颈,结合ViT-LM异构并行FlashInfer深度调优,将长序列训练性能提升至开源方案的2倍
  • 两阶段强化推理训练
    采用Mix-mode思维链多思考模式强化学习(RL),显著提升复杂任务中的因果推理能力。

2. 开源与落地进展

  • 模型权重开放
    已通过Hugging Face开源模型权重,并提供完整训练代码与评估工具。
  • 业务整合深度
    技术已覆盖快手208个行业的短视频生产、直播运营及广告投流环节,直接驱动人货匹配效率提升
© 版权声明

相关文章

暂无评论

none
暂无评论...