Stable Audio3 – Stability AI正式发布的音频生成模型系列

AI最新项目2个月前发布文明旁观者

101 00

Stable Audio3.0是Stability AI正式发布的音频生成模型系列，最大突破是将专业级音乐生成时长提升至 6 分 20 秒，首次实现AI生成结构完整、旋律连贯的歌曲级内容，标志着 AI 音乐从“短片段生成”迈向“完整曲目创作”的实用化阶段。

该系列通过差异化模型设计、版权合规训练和设备端支持，解决了长音频生成中的结构连贯性与商业化落地问题。

Stable Audio3 - Stability AI正式发布的音频生成模型系列

Stable Audio3核心模型规格与能力

1. 四款分层模型覆盖全场景需求

Small SFX（4.59 亿参数）：专注 2 分钟内音效生成，支持 Loop 循环，适配移动端与轻量设备。
Small（4.59 亿参数）：首个支持设备端完整音乐创作的开源模型，可在智能手机或笔记本本地生成最长 2 分钟的音乐，无需联网。
Medium（14 亿参数）：生成 最长 6 分 20 秒的专业级音乐，结构连贯性较前代提升 37%，推理速度约 1.31 秒（H200 GPU）。
Large（27 亿参数）：性能最强的闭源模型，专为高并发商业场景优化，仅通过 API 或企业自托管提供，年营收超 100 万美元的企业需额外购买商业授权。

2. 关键性能对比

生成时长：较 Stable Audio 2.0（2024 年发布，最长约 3 分钟）实现翻倍提升，覆盖绝大多数流行歌曲时长需求。
推理效率：Small 模型在 H200 GPU 上仅需 0.44 秒生成 2 分钟音频，Medium 为 1.31 秒，大幅降低创作延迟。
开源策略：Small SFX、Small 和 Medium 已开放模型权重，允许自由下载与二次开发；Large 保留为商业服务核心。

Stable Audio3技术创新点

1. 新架构突破“算力墙”限制

采用 语义-声学自动编码器（semantic-acoustic autoencoder），将音频压缩至 21.5 Hz 潜空间（压缩比超 2000 倍），在保留节奏与段落逻辑的同时，使长序列生成成为可能。
通过扩散Transformer（DiT） 替代传统 U-Net，强化长距离音乐结构依赖建模，确保主歌、副歌等段落过渡自然，避免“前 20 秒好听、后续散架”的常见问题。

2. 灵活生成与编辑功能

秒级精度控制时长：支持可变长度生成，无需固定输出时长。
音频 Inpainting（局部重绘）：可单独修改波形区间，实现片段润色或无缝续写，适配专业制作流程。
三种生成模式：文本生成（从零创作）、音频改编（参考风格）、局部重绘（修改片段），覆盖完整创作工作流。

版权合规与商业化优势

1. 全量授权数据训练

与华纳音乐集团、环球音乐集团达成战略合作，所有训练数据均获正式授权，规避版权诉讼风险。
相比 Suno、Udio 等竞品深陷版权纠纷，Stability AI 通过 法律赔付保障（indemnification） 吸引企业客户，成为其核心差异化优势。

2. 分层商用政策

个人及年营收 ≤100 万美元企业：可免费商用生成内容，所有权归用户所有。
大型企业：需购买商业授权，获得法律风险兜底，适配广告、游戏、影视等高合规要求场景。

行业意义与应用场景

1. 推动 AI 音乐进入专业工作流

设备端模型降低使用门槛：Small 版本使移动端离线创作成为可能，音乐人可快速生成草稿或临时配乐。
替代低预算场景需求：短视频背景音乐、游戏临时音效、广告样片等模板化内容生产效率显著提升。

2. 生态定位转变

从“创意玩具”转向 企业级基础设施，Stability AI 通过开放权重吸引开发者生态，同时以 Large 模型构建商业护城河。
正联合华纳音乐集团开发 专业级创作工具链，由前环球音频首席数字官伊桑·卡普兰主导，进一步衔接行业需求。

Stable Audio 3的项目地址

项目官网：https://stability.ai/news-updates/meet-stable-audio-3-the-model-family-built-for-artistic-experimentation-with-open-weight-models

GitHub仓库：https://github.com/Stability-AI/stable-audio-3

HuggingFace模型库：https://huggingface.co/collections/stabilityai/stable-audio-3

arXiv技术论文：https://arxiv.org/pdf/2605.17991

© 版权声明

文章版权归作者所有，未经允许请勿转载。

为这篇文章评分

0.0/ 10

0 人评价

点击⭐️进行评分

相关文章

ArkClaw – 火山引擎推出的云端SaaS版OpenClaw平台

ArkClaw – 火山引擎推出的云端SaaS版OpenClaw平台

3周前

0530

WBench – 首个面向交互式视频世界模型的系统性多轮评测基准

WBench – 首个面向交互式视频世界模型的系统性多轮评测基准

4周前

0630

TencentDB Agent Memor – 腾讯云团队开源的AI智能体记忆引擎

TencentDB Agent Memor – 腾讯云团队开源的AI智能体记忆引擎

2个月前

0750

CosyVoice – 阿里巴巴推出的AI智能输入法

CosyVoice – 阿里巴巴推出的AI智能输入法

2周前

0480

暂无评论

none

暂无评论...