LPM 1.0 – 米哈游蔡浩宇旗下Anuttacon发布的首个视频大模型

LPM 1.0 是由米哈游创始人蔡浩宇旗下的AI公司Anuttacon发布的首个视频大模型,全称为Large Performance Model(大型表演模型)。

它的核心突破在于,不再仅仅是生成一段视频,而是专注于创造具有高表现力、高一致性的AI角色“表演”。这意味着AI角色不仅能说话,还能像真人一样倾听、做出自然的表情和肢体反应,并能长时间保持身份稳定。

Anuttacon发布的首个视频大模型

核心功能:从“能说话”到“会表演”

LPM1.0 旨在解决传统数字人技术面临的“表演三难困境”,即难以同时实现高表现力、实时推理和长时稳定性。它通过以下方式实现了突破:
  • 全双工对话表演:模型能联合建模“说话”与“倾听”两种状态。当你与 AI 角色对话时,它不仅能在你说话时安静倾听,还会通过眼神、点头、微表情等方式给出自然的反馈,而不是呆滞地看着你
  • 高保真身份一致性:只需一张角色图片,LPM 1.0 就能在生成的视频中长期保持该角色的外貌、声音和性格特征稳定不变,避免了角色“变脸”或出现幻觉(如多生牙齿)的问题
  • 实时交互与无限时长:模型支持实时推理,能够生成无限时长的视频内容,非常适合用于直播、长时间陪伴等场景

技术亮点

  • 强大的模型架构:LPM1.0 是一个拥有 170 亿(17B)参数的扩散Transformer(DiT)架构模型。这种架构使其具备强大的全局建模能力,能更好地处理视频中的时空信息,从而生成更清晰、连贯的表演。
  • 多模态控制:你可以通过文本、音频、参考图像或视频等多种方式来控制和驱动角色,生成具有连贯动作和丰富表现力的视频内容
  • 角色泛化能力强:模型可以接受任意风格的角色作为输入,包括真人、2D动漫、3D游戏角色甚至非人形生物,无需针对特定类型进行专门训练

核心优势

  • 细腻拟人化表演:在角色的言语节奏、目光转移、犹豫思考等微表情方面,展现出相当多的真实细节,表演质量远超同类产品
  • 精准口型同步:能够实现视觉与声音的高度忠实,口型与发音精准匹配
  • 无限时长生成:相比于其他模型(如Kling-Avatar 2.0 等)通常有30秒左右的时长限制,LPM1.0 支持任意长度的内容生成,且能保持身份一致

重要说明与应用场景

  • 仅供学术研究:根据官方信息,LPM 1.0 目前仅供非商业学术研究使用,没有对外发布模型权重、API 或任何相关服务的计划
  • 潜在应用:尽管不对外开放,但其技术展示了广阔的应用前景,例如:
    • 对话式 AI 智能体:为 AI 赋予逼真的视觉形象。
    • 交互式游戏 NPC:创造能实时反应、情感丰富的游戏角色。
    • 虚拟主播:实现无限时长、身份稳定的直播。
    • 教育与陪伴:提供具有持续视觉在场感的 AI 导师或伙伴

LPM 1.0的项目地址

  • 项目官网:https://large-performance-model.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2604.07823
© 版权声明

相关文章

暂无评论

none
暂无评论...