所有分类
  • 所有分类
  • AI工具
  • AI提示词
  • 课程资源

AI工具百科: UROBench是什么 UROBench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型的性能。基准包...
76

AI工具百科: Nova Sonic是什么 Nova Sonic 是亚马逊推出的新型生成式 AI 语音模型。将语音理解与生成能力整合到一个模型中,能根据说话者的语调、风格等声学上下文调整生成的语音响应...
91

AI工具百科: ChineseLiPS是什么 ChineseLiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和...
74

AI工具百科: Dolphin是什么 Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言...
59

AI工具百科: gpt4otranscribe是什么 gpt4otranscribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单...
49

AI工具百科: FantasyTalking是什么 FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变...
84

AI工具百科: KimiAudio是什么 KimiAudio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音...
85

AI工具百科: Speech02是什么 Speech02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标...
80

AI工具百科: Chirp 3是什么 Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音输出更加贴近...
84

AI工具百科: Lovify是什么 Lovify 是 Chrome 扩展插件,专为开发者提升 Lovable的工作效率和体验设计。Lovify 提供智能调试提示,帮助开发者快速解决代码问题。Lovify 支持与 GitHub ...
51

AI工具百科: Soundwave是什么 Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了语音和...
52

AI工具百科: ChildMandarin是什么 ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)共同推出的,针对35岁儿童的普通话语音数据集。数据集包含41.25小...
59
加入AI学习第一站,精选2025年,AI工具、提示词、变现教程。 【戳我查看 】资料目录 【戳我登录】获取资料
显示验证码
没有账号?注册  忘记密码?