VibeVoice — 微软开源语音 AI 平台,实时语音交互全栈方案(27k ⭐)
microsoft/VibeVoice 是微软开源的语音 AI 平台,提供实时语音识别、合成、对话全栈能力,支持多语言和低延迟流式处理,是构建语音 AI 助手和实时音频应用的完整解决方案。
语音AI
微软
语音识别
+3
0
Qwen3-TTS 1.7B 离线整合包 - 顶尖开源AI语音工具集
最新的Qwen3-TTS 1.7B离线整合包,集成文字转语音、语音克隆等功能的开源AI语音全家桶
AI语音
TTS
语音克隆
+2
0
Fish Speech — 开源语音克隆与 TTS,10 秒样本即可复刻声线
顶级开源文字转语音系统,支持约 50 种语言,10-30 秒音频即可克隆声线,自然语言标签控制情绪语气,中文词错率低至 0.54%。
TTS
语音克隆
AI
+3
0
Real-Time Voice Cloning - 5 秒语音克隆
Clone a voice in 5 seconds to generate arbitrary speech in real-time - CorentinJ/Real-Time-Voice-Cloning
AI
语音克隆
实时
+1
0
GPT-SoVITS - 少样本语音克隆合成
1 min voice data can also be used to train a good TTS model! (few shot voice cloning) - RVC-Boss/GPT-SoVITS
AI
语音合成
TTS
+1
0
Voice-Pro - TTS 与语音克隆 WebUI
面向创作者的 Gradio WebUI,集成 Edge-TTS、Kokoro 等 TTS 引擎和零样本语音克隆功能。
TTS
语音克隆
WebUI
+1
166
VoiceBox - 开源语音合成工作室
基于 Qwen3-TTS 的开源语音合成工作室,提供高质量文本转语音、语音克隆等功能。
TTS
语音合成
开源
+1
128