OpenAvatarChat–阿里开源的实时数字人对话系统
AI工具百科:
Open Avatar Chat是什么
Open Avatar Chat 是阿里开源的模块化的实时数字人对话系统,支持在单台电脑上运行完整的功能。Open Avatar Chat 支持低延迟的实时对话(平均响...
InternVL3–上海AILab开源的多模态大语言模型
AI工具百科:
InternVL3是什么
InternVL3是上海人工智能实验室开源的多模态大型语言模型(MLLM),具有卓越的多模态感知和推理能力。模型系列包括1B到78B共7个不同尺寸的版本,能同时...
FinR1–上海财经联合财跃星辰推出的金融推理大模型
AI工具百科:
FinR1是什么
FinR1是上海财经大学联合财跃星辰推出的首个金融领域R1类推理大模型。基于7B参数的Qwen2.57BInstruct架构,通过在金融推理场景的高质量思维链数据上进行SFT...
VideoPainter–港中文联合腾讯等机构推出的视频修复和编辑框架
AI工具百科:
VideoPainter是什么
VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架,专门用在处理任意长度的视频内容。VideoPainter基...
ParakeetTDT0.6B–英伟达开源的自动语音识别模型
AI工具百科:
Parakeet TDT 0.6B是什么
Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速...
TripoSR–StabilityAI联合VAST开源的3D生成模型
AI工具百科:
TripoSR是什么
TripoSR是Stability AI和VAST联合推出的开源3D生成模型,能在不到0.5秒内从单张2D图像快速生成高质量的3D模型。模型基于Transformer架构,采用了大型重建...
MedReason–美国加州联合南洋理工等机构推出的医学推理框架
AI工具百科:
MedReason是什么
MedReason是美国加州大学圣克鲁斯分校、加拿大不列颠哥伦比亚大学、新加坡南洋理工大学等机构推出的医学推理框架,基于知识图谱提升大型语言模型(LLMs...
BGEVL–智源研究院联合多所高校开源的多模态向量模型
AI工具百科:
BGEVL是什么
BGEVL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGEVL专注于多模态检索任务,如图文检索和组合图像检索...
SkyworkR1V–昆仑万维开源的多模态思维链推理模型
AI工具百科:
Skywork R1V是什么
Skywork R1V是昆仑万维开源的首款工业界多模态思维链推理模型,具备强大的视觉链式推理能力。Skywork R1V能对视觉输入进行多步逻辑推理,解决复杂的视...
Aether–上海AILab开源的生成式世界模型
AI工具百科:
Aether是什么
Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测...
Qwen3–阿里通义开源的新一代混合推理模型系列
AI工具百科:
Qwen3是什么
Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合...
Soundwave–港中文深圳开源的语音理解大模型
AI工具百科:
Soundwave是什么
Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了语音和...

