Fish Speech — 开源语音克隆与 TTS,10 秒样本即可复刻声线
0 次浏览
2026/3/11
比肩商业产品的开源 TTS
Fish Speech 是目前综合表现最强的开源文字转语音系统。最新版本 S2 在中文词错率(WER)上达到 0.54%,英文 0.99%,在自然度盲测中对比商业竞品胜率 81.88%——已经不只是「还不错的开源方案」,而是真正可以上生产的工具。
核心能力
- 声线克隆:10–30 秒参考音频即可克隆,无需微调
- 情绪控制:自然语言标签如
[laugh]、[whispers]、[super happy]精细控制情感表现 - 多说话人:单模型支持多角色生成
- 多轮连贯:上下文感知,长篇内容表现更自然
- 多语言:约 50 种语言,无需音素预处理
性能指标
H200 GPU 下推理速度超过 3000 acoustic tokens/秒,支持命令行、Web UI、服务端部署和 Docker 多种方式。
25.6k Stars,Python 实现,Apache 2.0 许可。
下载地址
免责声明
本站内容主要用于信息整理、技术研究与经验分享,不对第三方产品或服务的可用性、完整性作出任何明示或暗示的保证。
- 本站所分享的资源、工具、教程等内容仅供学习与研究参考,请勿用于商业用途。
- 部分内容可能来源于公开网络或开源社区,如涉及版权或其他合法权益问题,请通过联系方式与我们联系,我们将在核实后及时处理。
- 如需将相关内容用于商业产品或盈利性业务,请自行联系权利方获取正式授权。
- 因不当使用引发的版权或合规风险,由使用者自行承担。
- 外部链接失效或无法访问属于正常现象,本站不保证所有链接的持续有效性。
转载或引用本文内容,请保留原文链接并注明来源。
评论
加载中...