VoxCPM2 是一个无分词器多语言文本转语音模型，直接生成连续语音表征，以获得更自然、更有表现力的合成结果。

VoxCPM2 能做什么？

它支持多语言 TTS、音色设计、可控声音克隆、极致克隆以及 48kHz 高质量音频输出。

支持哪些语言？

根据官方仓库说明，当前版本支持 30 种全球语言和 9 种中文方言。

去哪里看官方项目资源？

可以通过 OpenBMB 官方 GitHub 仓库、Read the Docs、Hugging Face、ModelScope 和官方 Demo 页面查看。

开源多语言语音生成

面向音色设计与高保真克隆的无分词器 TTS。

VoxCPM2 是一个 20 亿参数的语音模型，训练于超过 200 万小时的多语种音频数据，支持 30 种语言与 9 种中文方言。它可以从自然语言描述创建新音色，也可以基于参考音频进行可控克隆，并原生输出 48kHz 高质量音频。

在线体验查看 GitHub 阅读文档

20 亿参数 200 万+ 小时训练 30 种语言 9 种中文方言 Apache-2.0

音色设计: 只靠自然语言提示，就能凭空创建全新声音。
可控克隆: 在保留原始 timbre 的同时调节情绪、语速与风格。
极致克隆: 结合提示音频与转录文本，获得更高相似度的延续式克隆。
流式推理: 可结合 Nano-vLLM 与 vLLM-Omni 实现更低 RTF 的实时服务。

VoxCPM2 / Continuous speech representations

设计声音，克隆声音，实时生成声音。

架构 端到端扩散自回归生成，绕开离散音频分词器。

底座 基于 MiniCPM-4，并提供开源代码与模型权重。

输出 借助 AudioVAE V2 非对称编解码，原生输出 48kHz 音频。

服务 可接入 OpenAI 兼容推理路径与社区/官方流式部署栈。

版本 VoxCPM2

覆盖 30 种语言

方言 9 种中文方言

音质 48kHz 输出

协议 Apache-2.0

核心特性

VoxCPM 最值得关注的能力，被压缩成六个入口。

官方仓库最核心的叙述集中在六件事：多语言合成、音色设计、可控克隆、极致克隆、语境感知韵律以及实时流式服务。

30 语种合成

直接输入原始文本即可在 30 种语言中进行合成，无需额外语言标签。

音色设计

只通过自然语言描述，就能从零创建全新音色，不依赖参考音频。

可控声音克隆

基于短参考音频克隆 timbre，并叠加风格控制指令改变表现力。

极致克隆

结合提示音频与精确转录，让模型以续写方式保留更多细节特征。

语境感知韵律

模型会根据文本内容自动推断合适的节奏、停顿与表达方式。

实时流式推理

通过 Nano-vLLM 或 vLLM-Omni 可获得更低 RTF 和 OpenAI 兼容服务路径。

应用方向

团队通常会这样使用 VoxCPM。

当你需要从文本或短参考音频快速得到可控、高保真、可部署的语音输出时，VoxCPM 的优势会非常明显。

构建多语言产品声音

从纯文本出发，覆盖全球语种，用一套开源语音栈服务产品播报、助手或内容生成。

30 语种语境感知 48kHz

快速探索品牌音色

先用自然语言描述尝试不同人格与音色，再决定是否继续做更重的数据采集与精修。

自然语言控制无需参考音频创意试验

做更可控的声音克隆

将短参考音频、风格指令与提示音频续写结合起来，同时追求相似度与表达控制。

参考音频风格提示流式部署

快速开始

先装起来，再跑出第一段语音。

官方项目要求 Python 3.10+、PyTorch 2.5+、CUDA 12.0+。如果只是想最快验证效果，直接从 `openbmb/VoxCPM2` 开始即可。

先执行 `pip install voxcpm` 安装基础包。
`openbmb/VoxCPM2` 是当前推荐的主版本。
更完整的安装、CLI 与部署方式请查看 Read the Docs。
国内网络可优先使用 ModelScope 镜像下载模型。

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
    "openbmb/VoxCPM2",
    load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 已准备好进行高质量多语言语音合成。",
    cfg_value=2.0,
    inference_timesteps=10,
)

sf.write("demo.wav", wav, model.tts_model.sample_rate)

生态入口