Lance – 字节跳动推出的原生统一的多模态模型

AI最新项目2个月前更新文明旁观者

122 00

Lance 是字节跳动推出的一个原生统一的多模态模型。它是一个参数量为 30亿（3B）的研究性项目，旨在打破图像和视频在理解、生成、编辑任务上的壁垒。

与许多需要针对不同任务单独微调的模型不同，Lance从零开始训练，使用一个共享的架构来处理文本、图像和视频，实现了“一个模型，多种任务”。

Lance - 字节跳动推出的原生统一的多模态模型

Lance技术原理

Lance的核心技术框架旨在通过多任务协同来提升模型的综合能力。

共享交错序列 ：Lance为文本、图像和视频建立了共享的上下文序列，使得模型能够统一处理不同模态的信息。
专用专家模块：虽然架构统一，但它通过分离机制来区分任务：
- 语义理解：使用语义 ViT tokens（Semantic ViT tokens）。
- 视觉生成：使用干净/含噪的 VAE latents（Clean/Noisy VAE latents）。
关键机制：
- 广义 3D 因果注意力 (Generalized 3D Causal Attention)：用于处理视频数据中的时空关系。
- MaPE (Masked Positional Encoding)：掩码位置编码，用于减少不同视觉 token 之间的位置干扰，提升生成的准确性。
训练效率：该模型在不超过 128块 GPU 的训练预算下完成训练，具有较高的训练效率。

Lance核心特色

Lance 在保持较小参数量（3B）的同时，实现了极具竞争力的性能，其主要特色包括：

全栈多模态能力：集成了文生视频、视频编辑、视频理解、文生图、图像编辑和图像理解六大能力于一身。
高性价比：相比于其他参数量更大的模型（如 7B, 12B 甚至 20B），Lance 在 3B 的规模下取得了优异的成绩，降低了部署门槛。
多任务协同：通过统一的训练 recipe，模型在生成和理解任务上相互促进，避免了单一任务模型的局限性。

Lance功能与应用场景

Lance 的功能非常全面，涵盖了视觉内容的“创作”与“理解”两端，具体功能与场景如下表所示：

表格

功能模块	具体能力	应用场景示例
视频生成	文生视频 (Text-to-Video)	生成动画角色冲浪、机器人拉小提琴、人物互动等动态场景；生成具有电影感的梦幻镜头。
视频编辑	指令驱动编辑	更换背景、添加/移除对象、主体替换、改变风格。
智能视频	结构化规划	生成 2D 迷宫导航动画，控制对象（如蓝色星星）沿路径移动、避开墙壁并获取奖励，体现物理和逻辑规划能力。
视频理解	视觉问答 (VQA)	回答关于视频内容的问题，支持长视频描述生成。
图像生成	文生图	生成写实照片、艺术风格图像、包含特定文字的图像等。
图像编辑	指令修图	局部替换、风格迁移、对象操作（如移除、添加、变焦）、ID 保持的一对一/多对一变换。
图像理解	视觉问答	解析图表、识别车牌号、OCR 文字识别、描述地标建筑外观、回答文档内容。

Lance性能表现

根据网页中的基准测试（Benchmarks）数据，Lance在多个维度上表现突出：

图像生成：在GenEVAL和DPG-Bench上，Lance 在3B参数级别中取得了与更大模型相当甚至更好的分数，特别是在关系接地（Relation Grounding）方面表现强劲。
图像编辑：在 GEdit-Bench 上，Lance 获得了统一模型组中的最佳平均分。
视频生成：在 VBench 上，Lance 在统一模型组中获得了最高的总分。
视频理解：在 MVBench 上，Lance 在统一模型组中获得了最高的平均分，超越了部分更大的模型。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

为这篇文章评分

10.0/ 10

1 人评价

点击⭐️进行评分

相关文章

Marvis – 腾讯应用宝团队推出的操作系统级AI助手

Marvis – 腾讯应用宝团队推出的操作系统级AI助手

2个月前

0790

Ego Lite – 专为AI智能体（Agent）设计的浏览器工具

新Ego Lite – 专为AI智能体（Agent）设计的浏览器工具

2天前

0130

悟界Physis-v0.1 – 全球首个通用世界基座模型

悟界Physis-v0.1 – 全球首个通用世界基座模型

2周前

0530

Claude Sonnet 5 – Anthropic发布的中端大模型

新Claude Sonnet 5 – Anthropic发布的中端大模型

5天前

0320

暂无评论

none

暂无评论...