SpatialRAG–埃默里大学等机构推出的空间推理能力框架
AI工具百科:
SpatialRAG是什么
SpatialRAG(Spatial RetrievalAugmented Generation)是美国埃默里大学、德克萨斯大学奥斯汀分校推出的用在提升大型语言模型(LLMs)空间推理能力的框...
UniToken–复旦联合美团等机构推出的统一视觉编码框架
AI工具百科:
UniToken是什么
UniToken 是新型的自回归生成模型,专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示,构建了一种统一的视觉编码框架,能同时捕捉图像的高级...
InternVL3–上海AILab开源的多模态大语言模型
AI工具百科:
InternVL3是什么
InternVL3是上海人工智能实验室开源的多模态大型语言模型(MLLM),具有卓越的多模态感知和推理能力。模型系列包括1B到78B共7个不同尺寸的版本,能同时...
SeedThinkingv1.5–字节跳动推出的最新思考模型
AI工具百科:
SeedThinkingv1.5是什么
SeedThinkingv1.5 是字节跳动推出的推理智能模型,采用混合专家(MoE)架构,总参数量为 200B,每次激活 20B 参数。模型在多个基准测试中表现出...
kimithinkingpreview–月之暗面推出的多模态思考模型
AI工具百科:
kimithinkingpreview是什么
kimithinkingpreview 是月之暗面推出的多模态思考模型,具备深度推理能力,擅长解决复杂问题,如代码、数学和工作难题。模型基于 reasoning_c...
ParakeetTDT0.6B–英伟达开源的自动语音识别模型
AI工具百科:
Parakeet TDT 0.6B是什么
Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速...
BGEVL–智源研究院联合多所高校开源的多模态向量模型
AI工具百科:
BGEVL是什么
BGEVL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGEVL专注于多模态检索任务,如图文检索和组合图像检索...
MistralSmall3.1–MistralAI开源的多模态AI模型
AI工具百科:
Mistral Small 3.1是什么
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,有 240 亿参数,基于 Apache 2.0 许可证发布。在文本和多模态任务上表现出色,支...
Qwen3–阿里通义开源的新一代混合推理模型系列
AI工具百科:
Qwen3是什么
Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合...
SpatialLM–群核科技开源的空间理解多模态模型
AI工具百科:
SpatialLM是什么
SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的 3D 场景布局...
DistilQwen2.5R1–阿里推出的小型系列深度推理模型
AI工具百科:
DistilQwen2.5R1是什么
DistilQwen2.5R1 是阿里巴巴推出的基于知识蒸馏技术的小型化系列深度推理模型,包含3B、7B、14B和32B四个参数量级的模型。
DistilQwen2.5R1将...
Instella–AMD开源的30亿参数系列语言模型
AI工具百科:
Instella是什么
Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回归Transformer架构,包含36个解码器...

