XiaomiMiMo–小米开源的首个推理大模型
AI工具百科:
Xiaomi MiMo是什么
Xiaomi MiMo 是小米开源的首个推理(Reasoning)大模型,支持提升模型在复杂推理任务中的表现。模型基于联动预训练和后训练,挖掘大量富推理语料并采...
TokenFD–上海交大联合美团推出的细粒度图文对齐基础模型
AI工具百科:
TokenFD是什么
TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共...
BAGEL–字节跳动开源的多模态基础模型
AI工具百科:
BAGEL是什么
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语...
EmbodiedReasoner–浙大联合阿里等机构推出的具身交互推理模型
AI工具百科:
Embodied Reasoner是什么
Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复...
Gemma3–谷歌最新推出的开源多模态AI模型
AI工具百科:
Gemma 3是什么
Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种设备上的人工智能应用开发。支持超过 35 种语言,具备分析文本、图像及短视频的能力...
Dream7B–港大联合华为诺亚方舟开源的扩散推理模型
AI工具百科:
Dream7B是什么
Dream7B是香港大学和华为诺亚方舟实验室联合推出的扩散式推理模型,是目前最强大的开源扩散大语言模型。Dream7B训练数据涵盖文本、数学和代码,预训练使用...
TxGemma–谷歌推出的通用医学治疗大模型
AI工具百科:
TxGemma是什么
TxGemma 是谷歌推出的用于药物发现的通用人工智能模型,通过 AI 技术加速药物研发进程。基于 Google 的 Gemma 框架开发,能理解常规文本以及化学物质、分...
Kiss3DGen–基于图像扩散模型的3D资产生成框架
AI工具百科:
Kiss3DGen是什么
Kiss3DGen是创新的3D资产生成框架,通过重新基于预训练的2D图像扩散模型来高效生成、编辑和增强3D对象。核心在于生成“3D Bundle Image”,将多视图图像及...
UNO–字节跳动推出的创新AI图像生成框架
AI工具百科:
UNO是什么
UNO是字节跳动推出创新的AI图像生成框架,突破传统模型在多主体生成中的局限。通过“少到多”的泛化方法,能高质量地生成单主体和多主体图像,解决了多主体场景...
SeedCoder–字节跳动开源的代码模型系列
Ai工具百科:
SeedCoder是什么
SeedCoder是字节跳动开源的8B规模代码模型系列,提升代码生成与理解能力。包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂...
SkyReelsA2–昆仑万维推出的可控视频生成框架
AI工具百科:
SkyReelsA2是什么
SkyReelsA2是昆仑万维推出的可控视频生成框架,支持根据文本提示将任意视觉元素(如人物、物体、背景)组合成合成视频,严格保持与每个元素的参考图像...
AgentCPMGUI–清华联合面壁智能开源的端侧GUI智能体模型
AI工具百科:
AgentCPMGUI是什么
AgentCPMGUI 是清华大学和面壁智能团队联合推出的开源端侧 GUI Agent ,针对中文应用优化。模型基于 MiniCPMV(80 亿参数)构建,能接受智能手机截图...

