简单听记
AI办公工具,免费增值,百度网盘推出的AI语音转文字工具
官网:https://tingji.baidu.com/embed/listennote
简单听记是什么
简单听记是百度网盘推出的AI语音转文字工具,能将音频文...
悦录–AI语音转文字工具,支持多种语言和方言、准确率高达95%+
AI工具百科:
悦录是什么
悦录是AI语音转文字工具,基于同花顺的智能语音、自然语言处理等AI技术,能将语音录音快速准确地转换为文字,支持多种语言和方言,识别准确率高达95%以上。悦...
OpenLLMVTuber–AI数字人语音交互项目,支持实时语音对话和视觉感知
AI工具百科:
OpenLLMVTuber是什么
OpenLLMVTuber 是开源的跨平台语音交互 AI 伴侣项目。支持实时语音对话、视觉感知,配备生动的 Live2D 动态形象,能完全离线运行,保护隐私。用户将...
Oliva–开源语音RAG助手,实时语音搜索向量数据库
AI工具百科:
Oliva是什么
Oliva 是开源的语音RAG助手,结合 Langchain 和 Superlinked 技术,基于语音驱动的 RAG(检索增强生成)架构,帮助用户在 Qdrant 向量数据库中实时搜索信息...
Pinch–AI翻译平台,支持30多种语言在视频通话中即时语音翻译
AI工具百科:
Pinch是什么
Pinch 是创新的实时 AI 语音翻译视频会议平台,专为打破语言障碍而设计,支持超过 30 种语言的即时语音翻译。提供两种翻译模式:口译模式和同声传译模式,分...
OrpheusTTS–开源AI语音合成系统,支持多种语音风格
AI工具百科:
Orpheus TTS是什么
Orpheus TTS 是基于 Llama3b 架构的开源文本到语音(TTS)系统。Orpheus TTS 支持生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,...
MegaTTS3–字节与浙江大学合作推出的零样本语音合成系统
AI工具百科:
MegaTTS 3是什么
MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语音分解为内容...
MoshiVis–Kyutai开源的多模态实时语音模型
AI工具百科:
MoshiVis是什么
MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉...
TicVoice7.0–出门问问推出的第七代语音合成引擎
AI工具百科:
TicVoice 7.0是什么
TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 SparkTTS 。TicVoice 7.0基于创新的 BiCodec 编码方式,...
SeniorTalk–智源联合南开开源的超高龄老年人中文对话语音数据集
AI工具百科:
SeniorTalk是什么
SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及...
Asyncflowv1.0–Podcastle推出的AI文本转语音模型
AI工具百科:
Asyncflow v1.0是什么
Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项,能为文本内容生成高质量的语音朗读,适用于多种语言和...
MuyanTTS–开源文本转语音模型,零样本语音合成
AI工具百科:
MuyanTTS是什么
MuyanTTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据...