AudioSDS–NVIDIA推出的扩展文本条件音频扩散模型
AI工具百科:
AudioSDS是什么
AudioSDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无...
Addsubtitle–AI视频翻译工具,自动生成时间同步的字幕
AI工具百科:
Addsubtitle是什么
Addsubtitle 是基于 AI 的在线视频编辑工具,通过智能技术为用户提供便捷的字幕添加、翻译及视频编辑服务。用户可以轻松将视频翻译成100多种语言,一...
可灵AI国际版(KlingAI)–快手推出的AI视频和图像创作工具
AI工具百科:
可灵AI国际版是什么
可灵AI国际版(Kling AI) 是快手推出的AI视频和图像创作工具。专注于提供动态、美学和提示遵循方面极大改善的创意工具。可灵AI国际版提供多种功能,包...
Speech02–MiniMax推出的新一代文本转语音模型
AI工具百科:
Speech02是什么
Speech02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标...
DICETalk–复旦联合腾讯优图推出的情感化动态肖像生成框架
AI工具百科:
DICETalk是什么
DICETalk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICETalk引入情感...
讯飞译制–科大讯飞推出的一站式音视频翻译平台
AI工具百科:
讯飞译制是什么
讯飞译制是科大讯飞推出的智能字幕制作与翻译平台。基于先进的语音识别和机器翻译技术,能快速将音视频文件中的语音内容转化为精准的字幕,支持多种语言...
ListenHub–AI播客生成工具,可将任何内容快速生成播客
AI工具百科:
ListenHub是什么
ListenHub是基于前沿 AI 技术的播客生成工具,支持中文和英语,可将任何内容快速生成播客,提供超真实的人声体验,让播客听起来像自然对话。能根据用户...
AvatarIV–HeyGen最新推出的AI数字人模型
AI工具百科:
Avatar IV是什么
Avatar IV 是 HeyGen 最新推出的AI数字人模型,用在快速创建逼真视频。用户只需上传一张照片和一段脚本或音频,能生成自然流畅的视频。模型基于音频驱动...
ActorMode–ElevenLabs推出的AI语音生成工具
AI工具百科:
Actor Mode是什么
Actor Mode 是 ElevenLabs 推出的AI语音生成工具,支持用户通过自己的声音指导 AI 生成语音内容。用户只需录制一段音频或上传已有音频文件,AI 能分析...
Upheal–AI心理咨询助手,自动生成临床会话笔记
AI工具百科:
Upheal是什么
Upheal 是为心理健康专业人士设计的 AI 平台,提供自动化进展记录和视频会话功能。Upheal基于 AI 技术帮助治疗师、精神科医生和教练快速生成临床笔记,支持多...
TexttoBark–ElevenLabs推出的AI“狗语”文本转语音模型
AI工具百科:
Text to Bark是什么
Text to Bark 是 ElevenLabs 推出的全球首个AI“狗语”文本转语音模型。用户输入文字选择犬种,模型能生成高度逼真的狗吠声,95%的狗无法分辨其与真实...
Voila–开源端到端语音大模型,实现低延迟语音对话
AI工具百科:
Voila是什么
Voila 是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自...

