MoshiVis–Kyutai开源的多模态实时语音模型
AI工具百科:
MoshiVis是什么
MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉...
TicVoice7.0–出门问问推出的第七代语音合成引擎
AI工具百科:
TicVoice 7.0是什么
TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 SparkTTS 。TicVoice 7.0基于创新的 BiCodec 编码方式,...
SeniorTalk–智源联合南开开源的超高龄老年人中文对话语音数据集
AI工具百科:
SeniorTalk是什么
SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及...
Asyncflowv1.0–Podcastle推出的AI文本转语音模型
AI工具百科:
Asyncflow v1.0是什么
Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项,能为文本内容生成高质量的语音朗读,适用于多种语言和...
MuyanTTS–开源文本转语音模型,零样本语音合成
AI工具百科:
MuyanTTS是什么
MuyanTTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据...
Aero1Audio–LMMsLab推出的轻量级音频模型
AI工具百科:
Aero1Audio是什么
Aero1Audio 是 LMMsLab 开发的轻量级音频模型,基于 Qwen2.51.5B 构建,仅包含 1.5 亿参数。专为长音频处理设计,能支持长达 15 分钟的连续音频输入,...