开源多语言语音生成
面向音色设计与高保真克隆的无分词器 TTS。
VoxCPM2 是一个 20 亿参数的语音模型,训练于超过 200 万小时的多语种音频数据,支持 30 种语言与 9 种中文方言。它可以从自然语言描述创建新音色,也可以基于参考音频进行可控克隆, 并原生输出 48kHz 高质量音频。
- 音色设计
- 只靠自然语言提示,就能凭空创建全新声音。
- 可控克隆
- 在保留原始 timbre 的同时调节情绪、语速与风格。
- 极致克隆
- 结合提示音频与转录文本,获得更高相似度的延续式克隆。
- 流式推理
- 可结合 Nano-vLLM 与 vLLM-Omni 实现更低 RTF 的实时服务。
VoxCPM2 / Continuous speech representations
设计声音,克隆声音,实时生成声音。核心特性
VoxCPM 最值得关注的能力,被压缩成六个入口。
官方仓库最核心的叙述集中在六件事:多语言合成、音色设计、可控克隆、极致克隆、 语境感知韵律以及实时流式服务。
30 语种合成
直接输入原始文本即可在 30 种语言中进行合成,无需额外语言标签。
音色设计
只通过自然语言描述,就能从零创建全新音色,不依赖参考音频。
可控声音克隆
基于短参考音频克隆 timbre,并叠加风格控制指令改变表现力。
极致克隆
结合提示音频与精确转录,让模型以续写方式保留更多细节特征。
语境感知韵律
模型会根据文本内容自动推断合适的节奏、停顿与表达方式。
实时流式推理
通过 Nano-vLLM 或 vLLM-Omni 可获得更低 RTF 和 OpenAI 兼容服务路径。
应用方向
团队通常会这样使用 VoxCPM。
当你需要从文本或短参考音频快速得到可控、高保真、可部署的语音输出时,VoxCPM 的优势会非常明显。
构建多语言产品声音
从纯文本出发,覆盖全球语种,用一套开源语音栈服务产品播报、助手或内容生成。
快速探索品牌音色
先用自然语言描述尝试不同人格与音色,再决定是否继续做更重的数据采集与精修。
做更可控的声音克隆
将短参考音频、风格指令与提示音频续写结合起来,同时追求相似度与表达控制。
快速开始
先装起来,再跑出第一段语音。
官方项目要求 Python 3.10+、PyTorch 2.5+、CUDA 12.0+。如果只是想最快验证效果, 直接从 `openbmb/VoxCPM2` 开始即可。
- 先执行 `pip install voxcpm` 安装基础包。
- `openbmb/VoxCPM2` 是当前推荐的主版本。
- 更完整的安装、CLI 与部署方式请查看 Read the Docs。
- 国内网络可优先使用 ModelScope 镜像下载模型。
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained(
"openbmb/VoxCPM2",
load_denoiser=False,
)
wav = model.generate(
text="VoxCPM2 已准备好进行高质量多语言语音合成。",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
生态入口
用最短路径抵达代码、文档、模型、Demo 和样例。
这个站点本身保持轻量,真正有用的资源都直接跳向 OpenBMB 官方或官方关联页面。
代码
OpenBMB GitHub
查看仓库、release、issue,以及最权威的 README 与版本说明。
打开仓库 →文档
Read the Docs
集中查看安装、快速开始、API、CLI 与部署说明。
阅读文档 →体验
在线 Demo
在本地部署之前,先试音色设计、文本转语音和克隆效果。
进入 Demo →权重
Hugging Face
查看当前推荐模型以及历史版本的 checkpoint 入口。
浏览模型 →镜像
ModelScope
适合国内访问场景的模型镜像与下载入口。
打开镜像 →样例
音频样本页
直接试听多语言、克隆与对比样例,快速判断声音质量。
试听样例 →FAQ
第一次接触 VoxCPM 时最常见的四个问题。
VoxCPM 里的 “tokenizer-free” 到底是什么意思?
它指的是模型直接处理连续语音表征,而不是依赖离散音频 tokenizer。这是官方项目强调的 架构核心差异。
没有参考音频,也能生成一个全新声音吗?
可以。VoxCPM2 的音色设计能力允许你只用自然语言描述,就生成新的声音人格与 timbre。
怎样才能获得更高的克隆相似度?
官方示例建议同时使用参考音频、提示音频以及对应转录文本,让模型以续写方式保留更多细节。
如果我只是想先听效果,应该从哪里开始?
先看在线 Demo 和音频样本页,再进入 GitHub 仓库和文档查看安装与部署方式,会更高效。