PodAgent–港中文、微软、小红书联合推出的播客生成框架
AI工具百科:
PodAgent是什么
PodAgent 是香港中文大学、微软和小红书联合推...
VoiceCanvas–开源AI语音合成平台,支持多语言、多音色、声音克隆服务
AI工具百科:
VoiceCanvas是什么
VoiceCanvas 是开源的多语言语音合成平台。...
Voila–开源端到端语音大模型,实现低延迟语音对话
AI工具百科:
Voila是什么
Voila 是开源的端到端语音大模型,专为语音交互而...
AudioX–港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频
AI工具百科:
AudioX是什么
AudioX 是香港科技大学和月之暗面联合提出的统一...
谛韵DiffRhythm–西北工业联合港中文推出的端到端音乐生成工具
AI工具百科:
DiffRhythm是什么
DiffRhythm(中文名称:谛韵) 是西北工业大...
AbletonMCP–AI音乐制作工具,基于MCP支持音轨创建与修改
AI工具百科:
AbletonMCP是什么
AbletonMCP 是开源项目,基于模型上下文协议...
Dia–开源文本转语音模型,支持生成自然逼真的对话语音
AI工具百科:
Dia是什么
Dia 是 Nari Labs 推出的开源文本转语音(TTS)模型...
Deepgram
AI音频工具,免费增值,快速低成本的AI语音文本互转API平台
官网:https://...
Oliva–开源语音RAG助手,实时语音搜索向量数据库
AI工具百科:
Oliva是什么
Oliva 是开源的语音RAG助手,结合 Langchain 和 S...
OrpheusTTS–开源AI语音合成系统,支持多种语音风格
AI工具百科:
Orpheus TTS是什么
Orpheus TTS 是基于 Llama3b 架构的开源文...
MegaTTS3–字节与浙江大学合作推出的零样本语音合成系统
AI工具百科:
MegaTTS 3是什么
MegaTTS 3是字节跳动与浙江大学合作推出的零...
MoshiVis–Kyutai开源的多模态实时语音模型
AI工具百科:
MoshiVis是什么
MoshiVis 是 Kyutai 推出的开源多模态语音模型...

