Voila–开源端到端语音大模型,实现低延迟语音对话
AI工具百科:
Voila是什么
Voila 是开源的端到端语音大模型,专为语音交互而...
Dia–开源文本转语音模型,支持生成自然逼真的对话语音
AI工具百科:
Dia是什么
Dia 是 Nari Labs 推出的开源文本转语音(TTS)模型...
OrpheusTTS–开源AI语音合成系统,支持多种语音风格
AI工具百科:
Orpheus TTS是什么
Orpheus TTS 是基于 Llama3b 架构的开源文...
MegaTTS3–字节与浙江大学合作推出的零样本语音合成系统
AI工具百科:
MegaTTS 3是什么
MegaTTS 3是字节跳动与浙江大学合作推出的零...
SeniorTalk–智源联合南开开源的超高龄老年人中文对话语音数据集
AI工具百科:
SeniorTalk是什么
SeniorTalk 是智源研究院联合南开大学计算机...
MuyanTTS–开源文本转语音模型,零样本语音合成
AI工具百科:
MuyanTTS是什么
MuyanTTS 是为播客场景设计的开源文本转语音(...
ChineseLiPS–智源研究院联合南大开源的中文多模态语音识别数据集
AI工具百科:
ChineseLiPS是什么
ChineseLiPS 是智源研究院联合南开大学共同打...
StableAudioOpenSmall–StabilityAI和Arm推出的文本到音频生成模型
AI工具百科:
Stable Audio Open Small是什么
Stable Audio Open Small 是 S...
Dolphin–清华联合海天瑞声推出的语音识别大模型
AI工具百科:
Dolphin是什么
Dolphin是清华大学电子工程系语音与音频技术实...
ACEStep–ACEStudio联合阶跃星辰开源的音乐生成基础模型
AI工具百科:
ACEStep是什么
ACEStep 是 ACE Studio 和 StepFun 联合推出的...
ParakeetTDT0.6B–英伟达开源的自动语音识别模型
AI工具百科:
Parakeet TDT 0.6B是什么
Parakeet TDT 0.6B 是英伟达推出的开...
Soundwave–港中文深圳开源的语音理解大模型
AI工具百科:
Soundwave是什么
Soundwave是香港中文大学(深圳)开源的语音...
- 1
- 2

