FantasyTalking–阿里联合北邮推出静态肖像生成可控数字人的框架
AI工具百科:
FantasyTalking是什么
FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变...
KimiAudio–MoonshotAI开源的音频基础模型
AI工具百科:
KimiAudio是什么
KimiAudio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音...
Speech02–MiniMax推出的新一代文本转语音模型
AI工具百科:
Speech02是什么
Speech02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标...
Chirp3–谷歌云推出的高清语音合成模型
AI工具百科:
Chirp 3是什么
Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音输出更加贴近...
Lovify– 专为Lovable.dev设计的Chrome扩展插件
AI工具百科:
Lovify是什么
Lovify 是 Chrome 扩展插件,专为开发者提升 Lovable的工作效率和体验设计。Lovify 提供智能调试提示,帮助开发者快速解决代码问题。Lovify 支持与 GitHub ...
Soundwave–港中文深圳开源的语音理解大模型
AI工具百科:
Soundwave是什么
Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了语音和...
ChildMandarin–智源联合南开开源的低幼儿童中文语音数据集
AI工具百科:
ChildMandarin是什么
ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)共同推出的,针对35岁儿童的普通话语音数据集。数据集包含41.25小...
VoiceCanvas–开源AI语音合成平台,支持多语言、多音色、声音克隆服务
AI工具百科:
VoiceCanvas是什么
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等...
ActorMode–ElevenLabs推出的AI语音生成工具
AI工具百科:
Actor Mode是什么
Actor Mode 是 ElevenLabs 推出的AI语音生成工具,支持用户通过自己的声音指导 AI 生成语音内容。用户只需录制一段音频或上传已有音频文件,AI 能分析...
Voila–开源端到端语音大模型,实现低延迟语音对话
AI工具百科:
Voila是什么
Voila 是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自...
Ztalk.ai–专注于实时语音翻译的AI桌面应用
AI工具百科:
Ztalk.ai是什么
Ztalk.ai 是AI桌面应用程序,专注于实时语音翻译。支持超过30种语言,延迟小于100毫秒,能与Zoom、Google Meet、Teams等主流视频会议工具无缝集成。具备...
讯飞虚拟人
AI视频工具,免费增值,科大讯飞推出的全栈式AI虚拟人应用服务平台
官网:https://virtual-man.xfyun.cn/
讯飞虚拟人是科大讯飞推出的全栈式AI虚拟人应用服务平台,基于AI虚拟形象...