LPM 1.0 – 米哈游蔡浩宇旗下Anuttacon发布的首个视频大模型

AI最新项目14小时前更新文明旁观者

LPM 1.0 是由米哈游创始人蔡浩宇旗下的AI公司Anuttacon发布的首个视频大模型，全称为Large Performance Model(大型表演模型)。

它的核心突破在于，不再仅仅是生成一段视频，而是专注于创造具有高表现力、高一致性的AI角色“表演”。这意味着AI角色不仅能说话，还能像真人一样倾听、做出自然的表情和肢体反应，并能长时间保持身份稳定。

Anuttacon发布的首个视频大模型

核心功能：从“能说话”到“会表演”

LPM1.0 旨在解决传统数字人技术面临的“表演三难困境”，即难以同时实现高表现力、实时推理和长时稳定性。它通过以下方式实现了突破：

全双工对话表演：模型能联合建模“说话”与“倾听”两种状态。当你与 AI 角色对话时，它不仅能在你说话时安静倾听，还会通过眼神、点头、微表情等方式给出自然的反馈，而不是呆滞地看着你。
高保真身份一致性：只需一张角色图片，LPM 1.0 就能在生成的视频中长期保持该角色的外貌、声音和性格特征稳定不变，避免了角色“变脸”或出现幻觉（如多生牙齿）的问题。
实时交互与无限时长：模型支持实时推理，能够生成无限时长的视频内容，非常适合用于直播、长时间陪伴等场景。

技术亮点

强大的模型架构：LPM1.0 是一个拥有 170 亿（17B）参数的扩散Transformer（DiT）架构模型。这种架构使其具备强大的全局建模能力，能更好地处理视频中的时空信息，从而生成更清晰、连贯的表演。
多模态控制：你可以通过文本、音频、参考图像或视频等多种方式来控制和驱动角色，生成具有连贯动作和丰富表现力的视频内容。
角色泛化能力强：模型可以接受任意风格的角色作为输入，包括真人、2D动漫、3D游戏角色甚至非人形生物，无需针对特定类型进行专门训练。

核心优势

细腻拟人化表演：在角色的言语节奏、目光转移、犹豫思考等微表情方面，展现出相当多的真实细节，表演质量远超同类产品。
精准口型同步：能够实现视觉与声音的高度忠实，口型与发音精准匹配。
无限时长生成：相比于其他模型（如Kling-Avatar 2.0 等）通常有30秒左右的时长限制，LPM1.0 支持任意长度的内容生成，且能保持身份一致。

重要说明与应用场景

仅供学术研究：根据官方信息，LPM 1.0 目前仅供非商业学术研究使用，没有对外发布模型权重、API 或任何相关服务的计划。
潜在应用：尽管不对外开放，但其技术展示了广阔的应用前景，例如：
- 对话式 AI 智能体：为 AI 赋予逼真的视觉形象。
- 交互式游戏 NPC：创造能实时反应、情感丰富的游戏角色。
- 虚拟主播：实现无限时长、身份稳定的直播。
- 教育与陪伴：提供具有持续视觉在场感的 AI 导师或伙伴。

LPM 1.0的项目地址

项目官网：https://large-performance-model.github.io/
arXiv技术论文：https://arxiv.org/pdf/2604.07823

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

百度Qianfan-OCR端到端文档模型全面解析

百度Qianfan-OCR端到端文档模型全面解析

3周前

0280

MAI-Transcribe-1 – 微软最新推出的语音转文字模型

MAI-Transcribe-1 – 微软最新推出的语音转文字模型

1周前

0170

LongCat-Flash-Prover – 美团5677亿MoE数学推理大模型详解

LongCat-Flash-Prover – 美团5677亿MoE数学推理大模型详解

3周前

0290

Claude模型介绍

Claude模型介绍

3周前

0230

暂无评论

none

暂无评论...