Aero1Audio–LMMsLab推出的轻量级音频模型
AI工具百科:
Aero1Audio是什么
Aero1Audio 是 LMMsLab 开发的轻量级音频模型,基于 Qwen2.51.5B 构建,仅包含 1.5 亿参数。专为长音频处理设计,能支持长达 15 分钟的连续音频输入,...
UROBench–AI基准测试工具,专为端到端语音对话模型设计
AI工具百科:
UROBench是什么
UROBench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型的性能。基准包...
NovaSonic–亚马逊推出的新型生成式AI语音模型
AI工具百科:
Nova Sonic是什么
Nova Sonic 是亚马逊推出的新型生成式 AI 语音模型。将语音理解与生成能力整合到一个模型中,能根据说话者的语调、风格等声学上下文调整生成的语音响应...
ChineseLiPS–智源研究院联合南大开源的中文多模态语音识别数据集
AI工具百科:
ChineseLiPS是什么
ChineseLiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和...
Dolphin–清华联合海天瑞声推出的语音识别大模型
AI工具百科:
Dolphin是什么
Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言...
gpt4otranscribe–OpenAI推出的语音转文本模型
AI工具百科:
gpt4otranscribe是什么
gpt4otranscribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单...