VoxCPM2 – OpenBMB团队开源的一款语音生成基座模型

VoxCPM2 是由面壁智能(OpenBMB)团队开源的一款新一代语音生成基座模型。

如果说上一代 VoxCPM(0.5B)是以“小钢炮”著称的轻量化模型,那么 VoxCPM2 则是全面进化的“全能型选手”。它最大的突破在于彻底摒弃了传统的分词器(Tokenizer),直接在连续的语音空间中生成音频,从而实现了极高的拟真度和可控性。

简单来说,它不仅能“克隆”声音,还能“创造”声音,甚至能像真人一样根据文本内容自动调整语气和情感。

OpenBMB团队开源的一款语音生成基座模型

 VoxCPM2 的核心亮点

VoxCPM2 在上一代的基础上进行了大幅升级,主要体现在以下几个方面:

1. 架构革新:无分词器(Tokenizer-Free)


传统TTS模型通常需要先将声音切分成离散的“碎片”(Token),再拼接起来,这容易导致声音细节丢失或听起来有机械感。
  • VoxCPM2 的做法:采用扩散自回归架构,直接在连续的语音表征空间生成音频
  • 效果:就像人类说话一样流畅,没有拼接痕迹,音质达到 48kHz 录音室级别,韵律和细节(如呼吸声、停顿)更加自然

2. 三大核心能力

  • 零样本语音克隆 (Zero-shot Voice Cloning)
    • 极速复刻:仅需 5-10 秒 的参考音频(如一段采访或语音消息),就能完美复刻说话人的音色、口音、语速甚至情感节奏
    • 神似而非形似:它不仅是模仿声音,还能捕捉说话人的“微特征”,比如特定的方言(支持四川话、粤语等9种中文方言)和说话习惯
  • 原生声音设计 (Voice Design)
    • 凭空创造:这是 VoxCPM2 的杀手级功能。你不需要提供录音,只需输入一段自然语言描述(例如:“一个温柔的中年女性,声音略带沙哑,像是在讲故事”),模型就能凭空创造出一个符合描述的虚拟声音
    • 突破限制:这打破了传统 TTS 必须依赖真人录音的限制,为游戏、动漫角色配音提供了无限可能。
  • 上下文感知 (Context-Aware)
    • 因文赋声:模型能“读懂”文本内容,并自动调整说话风格
    • 场景示例
      • 读到数学公式 △ABC∽△DEF 时,它会像老师讲课一样自然朗读符号。
      • 读到新闻稿时,它会字正腔圆;读到笑话时,它会变得轻快俏皮

3. 实时流式生成

  • 低延迟:支持流式输出,实时率(RTF)低至 0.13(配合 Nano-VLLM 加速)。这意味着生成 10 秒的音频只需要不到 1.5 秒,完全满足实时对话、AI 助手等场景的需求

参数与规格

表格

特性描述
模型架构基于 MiniCPM-4 的 2B 参数扩散自回归模型
语言支持30 种语言 + 9 种中文方言(粤语、四川话等)
音质48kHz 采样率(录音室级)
开源协议Apache-2.0(允许商用)
硬件需求推荐显存 8GB 以上,支持 CUDA 12.0+

💡 如何使用?

VoxCPM2 的使用门槛非常低,提供了多种交互方式:
  1. Python 代码调用:通过 pip install voxcpm 安装库,几行代码即可实现声音克隆或生成
  2. Web 可视化界面:运行 python app.py 即可启动本地网页,像使用聊天软件一样上传音频、输入文本进行生成
  3. 命令行工具:适合批量处理任务。
© 版权声明

相关文章

暂无评论

none
暂无评论...