Lance 是字节跳动推出的一个原生统一的多模态模型。它是一个参数量为 30亿(3B) 的研究性项目,旨在打破图像和视频在理解、生成、编辑任务上的壁垒。
与许多需要针对不同任务单独微调的模型不同,Lance从零开始训练,使用一个共享的架构来处理文本、图像和视频,实现了“一个模型,多种任务”。

Lance技术原理
Lance的核心技术框架旨在通过多任务协同来提升模型的综合能力。
- 共享交错序列 :Lance为文本、图像和视频建立了共享的上下文序列,使得模型能够统一处理不同模态的信息。
- 专用专家模块:虽然架构统一,但它通过分离机制来区分任务:
- 语义理解:使用语义 ViT tokens(Semantic ViT tokens)。
- 视觉生成:使用干净/含噪的 VAE latents(Clean/Noisy VAE latents)。
- 关键机制:
- 广义 3D 因果注意力 (Generalized 3D Causal Attention):用于处理视频数据中的时空关系。
- MaPE (Masked Positional Encoding):掩码位置编码,用于减少不同视觉 token 之间的位置干扰,提升生成的准确性。
- 训练效率:该模型在不超过 128块 GPU 的训练预算下完成训练,具有较高的训练效率。
Lance核心特色
Lance 在保持较小参数量(3B)的同时,实现了极具竞争力的性能,其主要特色包括:
- 全栈多模态能力:集成了文生视频、视频编辑、视频理解、文生图、图像编辑和图像理解六大能力于一身。
- 高性价比:相比于其他参数量更大的模型(如 7B, 12B 甚至 20B),Lance 在 3B 的规模下取得了优异的成绩,降低了部署门槛。
- 多任务协同:通过统一的训练 recipe,模型在生成和理解任务上相互促进,避免了单一任务模型的局限性。
Lance功能与应用场景
Lance 的功能非常全面,涵盖了视觉内容的“创作”与“理解”两端,具体功能与场景如下表所示:
表格
| 功能 模块 | 具体能力 | 应用场景示例 |
|---|---|---|
| 视频 生成 | 文生视频 (Text-to-Video) | 生成动画角色冲浪、机器人拉小提琴、人物互动等动态场景;生成具有电影感的梦幻镜头。 |
| 视频 编辑 | 指令驱动编辑 | 更换背景、添加/移除对象、主体替换、改变风格。 |
| 智能 视频 | 结构化规划 | 生成 2D 迷宫导航动画,控制对象(如蓝色星星)沿路径移动、避开墙壁并获取奖励,体现物理和逻辑规划能力。 |
| 视频 理解 | 视觉问答 (VQA) | 回答关于视频内容的问题,支持长视频描述生成。 |
| 图像 生成 | 文生图 | 生成写实照片、艺术风格图像、包含特定文字的图像等。 |
| 图像 编辑 | 指令修图 | 局部替换、风格迁移、对象操作(如移除、添加、变焦)、ID 保持的一对一/多对一变换。 |
| 图像理解 | 视觉问答 | 解析图表、识别车牌号、OCR 文字识别、描述地标建筑外观、回答文档内容。 |
Lance性能表现
根据网页中的基准测试(Benchmarks)数据,Lance在多个维度上表现突出:
- 图像生成:在GenEVAL和DPG-Bench上,Lance 在3B参数级别中取得了与更大模型相当甚至更好的分数,特别是在关系接地(Relation Grounding)方面表现强劲。
- 图像编辑:在 GEdit-Bench 上,Lance 获得了统一模型组中的最佳平均分。
- 视频生成:在 VBench 上,Lance 在统一模型组中获得了最高的总分。
- 视频理解:在 MVBench 上,Lance 在统一模型组中获得了最高的平均分,超越了部分更大的模型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



