首页/OpenBMB/VoxCPM — 无 Tokenizer 的开源 TTS,2B 参数支持 30 语言+声音设计+48kHz(23k ⭐)

OpenBMB/VoxCPM — 无 Tokenizer 的开源 TTS,2B 参数支持 30 语言+声音设计+48kHz(23k ⭐)

0 次浏览
2026/5/31

OpenBMB/VoxCPM2 — 无 Tokenizer 的端到端扩散 TTS

GitHub: https://github.com/OpenBMB/VoxCPM Stars: 23,118 (今日 trending) 作者: OpenBMB (清华面壁团队) 最新版: VoxCPM2 — 2B 参数,200万小时训练数据 许可: Apache-2.0,可商用

技术突破

绕过离散 Tokenization,直接用扩散自回归架构生成连续语音表示,基于 MiniCPM-4 骨干网络,实现高自然度和表现力。

核心功能

  • 30 种语言 — 无需语言标签,直接输入目标语言文本
  • 声音设计 — 仅凭自然语言描述(性别、年龄、情感、语速)创造全新声音,无需参考音频
  • 可控克隆 — 短参考音频克隆声音,可叠加情感和风格引导
  • 极致克隆 — 同时提供参考音频和文本,完美还原音色、节奏、情感
  • 48kHz 输出 — AudioVAE V2 非对称编解码,内置超分辨率,无需外部升采样
  • 实时流式 — RTF ~0.3(RTX 4090),vLLM 加速后 ~0.13

支持中文方言

四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话

适合场景

语音 Agent、有声书制作、多语言内容本地化、不想依赖商业 TTS API 的开发者和企业。

免责声明

本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。

  • 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
  • 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
  • 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
  • 因不当使用引发的版权或合规风险,由使用者自行承担。
  • 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。

转载或引用本文内容,请保留原文链接并注明来源。

评论

加载中...