PrismAudio是阿里通义实验室推出的AI视频环境音生成框架,可根据画面自动生成逼真环境音效与动作音。它采用分解式思维链分析画面内容与发声时机,结合四维强化学习实现声画精准同步,兼顾语义匹配、时序对齐与空间立体声效。模型轻量高效,生成速度快,在多项权威测评中表现领先,适用于AI视频、短视频创作、动画配音等场景。

PrismAudio核心定位
专为视频生成环境音效(BGM/背景音/动作音效),而非人声配音。
解决痛点:AI生成视频常 “声画脱节”,音效不准、不同步、无空间感。
核心目标:让AI看懂画面,自动生成马蹄声、风雨声、脚步声、撞击声等,实现声画同频。
PrismAudio核心技术
分解式思维链(先思考,再发声)模型先分析视频:画面有什么?何时发声?音质如何?声源在哪? 生成 “行动指南” 后再合成声音。
四维导师强化学习(四重打分)由4个AI “老师” 同时监督优化:
语义老师:声音与物体匹配(是马蹄,不是鸟叫)
时序老师:声音与动作精准同步(不早不晚)
美学老师:音质自然、不刺耳、有层次
空间老师:立体声定位(声音从左/右/远/近发出)
Fast-GRPO 高效算法训练效率是传统方法的 3 倍,仅需 5.18 亿 参数(轻量)。
PrismAudio性能与效率
速度:生成9秒高质量音效,仅需0.63秒
效果:在VGGSound、AudioCanvas等权威数据集上,超越所有现有模型
成果:研究论文被ICLR2026(顶级AI会议)收录
PrismAudio应用场景
AI视频/动画自动补全环境音
短视频、游戏、虚拟场景音效自动化生成
无声老片/素材智能配音效
PrismAudio的项目地址
- 项目官网:https://prismaudio-project.github.io/
- GitHub仓库:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
- HuggingFace模型库:https://huggingface.co/FunAudioLLM/PrismAudio
- arXiv技术论文:https://arxiv.org/pdf/2511.18833
- 在线体验Demo:https://huggingface.co/spaces/FunAudioLLM/PrismAudio
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



