Asyncflowv1.0–Podcastle推出的AI文本转语音模型
AI工具百科:
Asyncflow v1.0是什么
Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项,能为文本内容生成高质量的语音朗读,适用于多种语言和...
MuyanTTS–开源文本转语音模型,零样本语音合成
AI工具百科:
MuyanTTS是什么
MuyanTTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据...
Aero1Audio–LMMsLab推出的轻量级音频模型
AI工具百科:
Aero1Audio是什么
Aero1Audio 是 LMMsLab 开发的轻量级音频模型,基于 Qwen2.51.5B 构建,仅包含 1.5 亿参数。专为长音频处理设计,能支持长达 15 分钟的连续音频输入,...
UROBench–AI基准测试工具,专为端到端语音对话模型设计
AI工具百科:
UROBench是什么
UROBench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型的性能。基准包...
NovaSonic–亚马逊推出的新型生成式AI语音模型
AI工具百科:
Nova Sonic是什么
Nova Sonic 是亚马逊推出的新型生成式 AI 语音模型。将语音理解与生成能力整合到一个模型中,能根据说话者的语调、风格等声学上下文调整生成的语音响应...
ChineseLiPS–智源研究院联合南大开源的中文多模态语音识别数据集
AI工具百科:
ChineseLiPS是什么
ChineseLiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和...
Dolphin–清华联合海天瑞声推出的语音识别大模型
AI工具百科:
Dolphin是什么
Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言...
gpt4otranscribe–OpenAI推出的语音转文本模型
AI工具百科:
gpt4otranscribe是什么
gpt4otranscribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单...
FantasyTalking–阿里联合北邮推出静态肖像生成可控数字人的框架
AI工具百科:
FantasyTalking是什么
FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变...
KimiAudio–MoonshotAI开源的音频基础模型
AI工具百科:
KimiAudio是什么
KimiAudio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音...
Speech02–MiniMax推出的新一代文本转语音模型
AI工具百科:
Speech02是什么
Speech02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标...
Chirp3–谷歌云推出的高清语音合成模型
AI工具百科:
Chirp 3是什么
Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音输出更加贴近...

