BGEVL–智源研究院联合多所高校开源的多模态向量模型
AI工具百科:
BGEVL是什么
BGEVL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGEVL专注于多模态检索任务,如图文检索和组合图像检索...
Aether–上海AILab开源的生成式世界模型
AI工具百科:
Aether是什么
Aether 是上海AI Lab开源的生成式世界模型,完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测...
Soundwave–港中文深圳开源的语音理解大模型
AI工具百科:
Soundwave是什么
Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了语音和...
Qwen3–阿里通义开源的新一代混合推理模型系列
AI工具百科:
Qwen3是什么
Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合...
OLMo232B–Ai2推出的最新开源语言模型
AI工具百科:
OLMo 2 32B是什么
OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新开源语言模型,是 OLMo 2 系列的重要成果。拥有 320 亿参数,是首个在多技能学术基准测试中超...
ChildMandarin–智源联合南开开源的低幼儿童中文语音数据集
AI工具百科:
ChildMandarin是什么
ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)共同推出的,针对35岁儿童的普通话语音数据集。数据集包含41.25小...
OpenDeepSearch–AI搜索工具,支持深度网络搜索和信息检索
AI工具百科:
OpenDeepSearch是什么
OpenDeepSearch 是开源的深度搜索工具,基于开源推理模型和推理代理提升搜索性能,专为 Hugging Face 的 SmolAgents 无缝集成进行优化,支持深度...
SpatialLM–群核科技开源的空间理解多模态模型
AI工具百科:
SpatialLM是什么
SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的 3D 场景布局...
VITAAudio–开源的端到端多模态语音大模型,低延迟、推理快
AI工具百科:
VITAAudio是什么
VITAAudio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频...
EasyControl–TiamatAI联合上海科大等开源的图像生成控制框架
AI工具百科:
EasyControl是什么
EasyControl 是 Tiamat AI 开源的基于扩散变换器(Diffusion Transformer,DiT)架构的高效灵活控制框架,通过轻量级条件注入 LoRA 模块,独立处理条...
MoviiGen1.1–AI视频生成模型,支持生成电影级画质
AI工具百科:
MoviiGen 1.1是什么
MoviiGen 1.1 是ZulutionAI 推出的专注于生成电影级画质视频的AI模型。模型基于 Wan2.1 微调而成,经过专业电影制作人和AIGC创作者在60个美学维度上...
OpenCodeReasoning–英伟达开源的代码推理AI模型
Ai工具百科:
Open Code Reasoning是什么
Open Code Reasoning(OCR)是英伟达开源的代码推理AI模型,基于Nemotron架构,专为提升代码推理和生成能力设计。OCR包含32B、14B和7B三种模...

