PrismAudio – 阿里通义实验室推出的AI视频环境音生成框架

AI最新项目5天前发布文明旁观者

PrismAudio是阿里通义实验室推出的AI视频环境音生成框架，可根据画面自动生成逼真环境音效与动作音。它采用分解式思维链分析画面内容与发声时机，结合四维强化学习实现声画精准同步，兼顾语义匹配、时序对齐与空间立体声效。模型轻量高效，生成速度快，在多项权威测评中表现领先，适用于AI视频、短视频创作、动画配音等场景。

PrismAudio - 阿里通义实验室推出的AI视频环境音生成框架

PrismAudio核心定位

专为视频生成环境音效(BGM/背景音/动作音效)，而非人声配音。

解决痛点：AI生成视频常 “声画脱节”，音效不准、不同步、无空间感。

核心目标：让AI看懂画面，自动生成马蹄声、风雨声、脚步声、撞击声等，实现声画同频。

PrismAudio核心技术

分解式思维链(先思考，再发声)模型先分析视频：画面有什么?何时发声?音质如何?声源在哪? 生成 “行动指南” 后再合成声音。

四维导师强化学习(四重打分)由4个AI “老师” 同时监督优化：

语义老师：声音与物体匹配(是马蹄，不是鸟叫)

时序老师：声音与动作精准同步(不早不晚)

美学老师：音质自然、不刺耳、有层次

空间老师：立体声定位(声音从左/右/远/近发出)

Fast-GRPO 高效算法训练效率是传统方法的 3 倍，仅需 5.18 亿参数(轻量)。

PrismAudio性能与效率

速度：生成9秒高质量音效，仅需0.63秒

效果：在VGGSound、AudioCanvas等权威数据集上，超越所有现有模型

成果：研究论文被ICLR2026(顶级AI会议)收录

PrismAudio应用场景

AI视频/动画自动补全环境音

短视频、游戏、虚拟场景音效自动化生成

无声老片/素材智能配音效

PrismAudio的项目地址

项目官网：https://prismaudio-project.github.io/
GitHub仓库：https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
HuggingFace模型库：https://huggingface.co/FunAudioLLM/PrismAudio
arXiv技术论文：https://arxiv.org/pdf/2511.18833
在线体验Demo：https://huggingface.co/spaces/FunAudioLLM/PrismAudio

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

GStack-YC开源Claude高效开发框架详解

新GStack-YC开源Claude高效开发框架详解

6天前

0120

MiMo-V2-Flash模型介绍

MiMo-V2-Flash模型介绍

AI最新项目 # MiMo-V2

1周前

0250

GLM-5-Turbo – 智谱为OpenClaw打造的智能体专用基座模型

GLM-5-Turbo – 智谱为OpenClaw打造的智能体专用基座模型

1周前

090

LongCat-Flash-Prover – 美团5677亿MoE数学推理大模型详解

新LongCat-Flash-Prover – 美团5677亿MoE数学推理大模型详解

6天前

0120

暂无评论

none

暂无评论...