PrismAudio – 阿里通义实验室推出的AI视频环境音生成框架

PrismAudio是阿里通义实验室推出的AI视频环境音生成框架,可根据画面自动生成逼真环境音效与动作音。它采用分解式思维链分析画面内容与发声时机,结合四维强化学习实现声画精准同步,兼顾语义匹配、时序对齐与空间立体声效。模型轻量高效,生成速度快,在多项权威测评中表现领先,适用于AI视频、短视频创作、动画配音等场景。

PrismAudio - 阿里通义实验室推出的AI视频环境音生成框架

PrismAudio核心定位

专为视频生成环境音效(BGM/背景音/动作音效),而非人声配音。

解决痛点:AI生成视频常 “声画脱节”,音效不准、不同步、无空间感。

核心目标:让AI看懂画面,自动生成马蹄声、风雨声、脚步声、撞击声等,实现声画同频。

PrismAudio核心技术

分解式思维链(先思考,再发声)模型先分析视频:画面有什么?何时发声?音质如何?声源在哪? 生成 “行动指南” 后再合成声音。

四维导师强化学习(四重打分)由4个AI “老师” 同时监督优化:

语义老师:声音与物体匹配(是马蹄,不是鸟叫)

时序老师:声音与动作精准同步(不早不晚)

美学老师:音质自然、不刺耳、有层次

空间老师:立体声定位(声音从左/右/远/近发出)

Fast-GRPO 高效算法训练效率是传统方法的 3 倍,仅需 5.18 亿 参数(轻量)。

PrismAudio性能与效率

速度:生成9秒高质量音效,仅需0.63秒

效果:在VGGSound、AudioCanvas等权威数据集上,超越所有现有模型

成果:研究论文被ICLR2026(顶级AI会议)收录

PrismAudio应用场景

AI视频/动画自动补全环境音

短视频、游戏、虚拟场景音效自动化生成

无声老片/素材智能配音效

PrismAudio的项目地址

  • 项目官网:https://prismaudio-project.github.io/
  • GitHub仓库:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
  • HuggingFace模型库:https://huggingface.co/FunAudioLLM/PrismAudio
  • arXiv技术论文:https://arxiv.org/pdf/2511.18833
  • 在线体验Demo:https://huggingface.co/spaces/FunAudioLLM/PrismAudio
© 版权声明

相关文章

暂无评论

none
暂无评论...