VoxCPM2 – OpenBMB团队开源的一款语音生成基座模型

VoxCPM2 是由面壁智能(OpenBMB)团队开源的一款新一代语音生成基座模型。

如果说上一代 VoxCPM(0.5B)是以“小钢炮”著称的轻量化模型，那么 VoxCPM2 则是全面进化的“全能型选手”。它最大的突破在于彻底摒弃了传统的分词器(Tokenizer)，直接在连续的语音空间中生成音频，从而实现了极高的拟真度和可控性。

简单来说，它不仅能“克隆”声音，还能“创造”声音，甚至能像真人一样根据文本内容自动调整语气和情感。

VoxCPM2 在上一代的基础上进行了大幅升级，主要体现在以下几个方面：

1. 架构革新：无分词器(Tokenizer-Free)

传统TTS模型通常需要先将声音切分成离散的“碎片”（Token），再拼接起来，这容易导致声音细节丢失或听起来有机械感。

零样本语音克隆 (Zero-shot Voice Cloning)
- 极速复刻：仅需 5-10 秒 的参考音频（如一段采访或语音消息），就能完美复刻说话人的音色、口音、语速甚至情感节奏。
- 神似而非形似：它不仅是模仿声音，还能捕捉说话人的“微特征”，比如特定的方言（支持四川话、粤语等9种中文方言）和说话习惯。
原生声音设计 (Voice Design)
- 凭空创造：这是 VoxCPM2 的杀手级功能。你不需要提供录音，只需输入一段自然语言描述（例如：“一个温柔的中年女性，声音略带沙哑，像是在讲故事”），模型就能凭空创造出一个符合描述的虚拟声音。
- 突破限制：这打破了传统 TTS 必须依赖真人录音的限制，为游戏、动漫角色配音提供了无限可能。
上下文感知 (Context-Aware)
- 因文赋声：模型能“读懂”文本内容，并自动调整说话风格。
- 场景示例：
  - 读到数学公式 △ABC∽△DEF 时，它会像老师讲课一样自然朗读符号。
  - 读到新闻稿时，它会字正腔圆；读到笑话时，它会变得轻快俏皮。

低延迟：支持流式输出，实时率（RTF）低至 0.13（配合 Nano-VLLM 加速）。这意味着生成 10 秒的音频只需要不到 1.5 秒，完全满足实时对话、AI 助手等场景的需求。

表格