VoxCPM 字标

开源多语言语音生成

面向音色设计与高保真克隆的无分词器 TTS。

VoxCPM2 是一个 20 亿参数的语音模型,训练于超过 200 万小时的多语种音频数据,支持 30 种语言与 9 种中文方言。它可以从自然语言描述创建新音色,也可以基于参考音频进行可控克隆, 并原生输出 48kHz 高质量音频。

20 亿参数 200 万+ 小时训练 30 种语言 9 种中文方言 Apache-2.0
音色设计
只靠自然语言提示,就能凭空创建全新声音。
可控克隆
在保留原始 timbre 的同时调节情绪、语速与风格。
极致克隆
结合提示音频与转录文本,获得更高相似度的延续式克隆。
流式推理
可结合 Nano-vLLM 与 vLLM-Omni 实现更低 RTF 的实时服务。

VoxCPM2 / Continuous speech representations

设计声音,克隆声音,实时生成声音。
架构 端到端扩散自回归生成,绕开离散音频分词器。
底座 基于 MiniCPM-4,并提供开源代码与模型权重。
输出 借助 AudioVAE V2 非对称编解码,原生输出 48kHz 音频。
服务 可接入 OpenAI 兼容推理路径与社区/官方流式部署栈。
版本 VoxCPM2
覆盖 30 种语言
方言 9 种中文方言
音质 48kHz 输出
协议 Apache-2.0

核心特性

VoxCPM 最值得关注的能力,被压缩成六个入口。

官方仓库最核心的叙述集中在六件事:多语言合成、音色设计、可控克隆、极致克隆、 语境感知韵律以及实时流式服务。

01

30 语种合成

直接输入原始文本即可在 30 种语言中进行合成,无需额外语言标签。

02

音色设计

只通过自然语言描述,就能从零创建全新音色,不依赖参考音频。

03

可控声音克隆

基于短参考音频克隆 timbre,并叠加风格控制指令改变表现力。

04

极致克隆

结合提示音频与精确转录,让模型以续写方式保留更多细节特征。

05

语境感知韵律

模型会根据文本内容自动推断合适的节奏、停顿与表达方式。

06

实时流式推理

通过 Nano-vLLM 或 vLLM-Omni 可获得更低 RTF 和 OpenAI 兼容服务路径。

应用方向

团队通常会这样使用 VoxCPM。

当你需要从文本或短参考音频快速得到可控、高保真、可部署的语音输出时,VoxCPM 的优势会非常明显。

A

构建多语言产品声音

从纯文本出发,覆盖全球语种,用一套开源语音栈服务产品播报、助手或内容生成。

30 语种 语境感知 48kHz
B

快速探索品牌音色

先用自然语言描述尝试不同人格与音色,再决定是否继续做更重的数据采集与精修。

自然语言控制 无需参考音频 创意试验
C

做更可控的声音克隆

将短参考音频、风格指令与提示音频续写结合起来,同时追求相似度与表达控制。

参考音频 风格提示 流式部署

快速开始

先装起来,再跑出第一段语音。

官方项目要求 Python 3.10+、PyTorch 2.5+、CUDA 12.0+。如果只是想最快验证效果, 直接从 `openbmb/VoxCPM2` 开始即可。

  • 先执行 `pip install voxcpm` 安装基础包。
  • `openbmb/VoxCPM2` 是当前推荐的主版本。
  • 更完整的安装、CLI 与部署方式请查看 Read the Docs。
  • 国内网络可优先使用 ModelScope 镜像下载模型。
Python API
from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
    "openbmb/VoxCPM2",
    load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 已准备好进行高质量多语言语音合成。",
    cfg_value=2.0,
    inference_timesteps=10,
)

sf.write("demo.wav", wav, model.tts_model.sample_rate)

生态入口

用最短路径抵达代码、文档、模型、Demo 和样例。

这个站点本身保持轻量,真正有用的资源都直接跳向 OpenBMB 官方或官方关联页面。

FAQ

第一次接触 VoxCPM 时最常见的四个问题。

VoxCPM 里的 “tokenizer-free” 到底是什么意思?

它指的是模型直接处理连续语音表征,而不是依赖离散音频 tokenizer。这是官方项目强调的 架构核心差异。

没有参考音频,也能生成一个全新声音吗?

可以。VoxCPM2 的音色设计能力允许你只用自然语言描述,就生成新的声音人格与 timbre。

怎样才能获得更高的克隆相似度?

官方示例建议同时使用参考音频、提示音频以及对应转录文本,让模型以续写方式保留更多细节。

如果我只是想先听效果,应该从哪里开始?

先看在线 Demo 和音频样本页,再进入 GitHub 仓库和文档查看安装与部署方式,会更高效。