UniTok–字节联合港大、华中科技推出的统一视觉分词器
AI工具百科:
UniTok是什么
UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块...
GLM432B–智谱开源的新一代基座模型
AI工具百科:
GLM432B是什么
GLM432B是智谱公司开源的新一代基座模型,参数版本为GLM432B0414。GLM432B经过15T高质量数据预训练,强化代码生成、推理和工程任务能力,支持HTML、CSS、J...
Dolphin–字节跳动开源的文档解析大模型
AI工具百科:
Dolphin是什么
Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点...
SpatialVLA–上海AILab联合上科大等推出的空间具身通用操作模型
AI工具百科:
SpatialVLA是什么
SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,为机器人赋予...
ReasonIR8B–MetaAI推出专为推理密集型检索任务设计的模型
AI工具百科:
ReasonIR8B是什么
ReasonIR8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.18B 训练,采用双编码器架构,将查询和文档分别编码为嵌入向量,通过余...
MultiSWEbench–字节豆包开源的多语言代码修复基准
Ai工具百科:
MultiSWEbench是什么
MultiSWEbench 是字节跳动豆包大模型团队开源的首个多语言代码修复基准。在SWEbench基础上,首次覆盖Python之外的7种主流编程语言,包括Java、TypeS...
Dia–开源文本转语音模型,支持生成自然逼真的对话语音
AI工具百科:
Dia是什么
Dia 是 Nari Labs 推出的开源文本转语音(TTS)模型,拥有 16亿参数,根据文本脚本直接生成高度逼真的对话语音,支持多说话者标记、情感语调控制以及非语言提...
NexusGen–魔搭联合华东师范等机构开源的全模态图像生成模型
AI工具百科:
NexusGen是什么
NexusGen 是魔搭团队、华东师范大学等机构推出的开源全能图像生成模型,支持同时完成图像理解、生成和编辑任务。NexusGen融合强大的语言模型与扩散模型的...
DeepSeekR1TChimera–TNG开源的语言模型
AI工具百科:
DeepSeekR1TChimera是什么
DeepSeekR1TChimera 是TNG科技公司推出的开源语言模型。结合 DeepSeek V30324 和DeepSeek R1两种模型的优势,基于创新的构建方法,将两者的神...
InstantCharacter–腾讯混元开源的定制化图像生成插件
AI工具百科:
InstantCharacter是什么
InstantCharacter 是腾讯混元开源的定制化图像生成插件。基于扩散 Transformer(DiT)框架,引入可扩展的适配器(包含多个 Transformer encoder...
MCPCourse–HuggingFace推出的免费MCP课程
AI工具百科:
MCP Course是什么
MCP Course是Hugging Face 推出的一门免费的开源课程,专注于教授如何利用模型上下文协议(MCP)构建和部署具有上下文感知能力的 AI 代理和应用。课程...
Amodal3R–南洋理工联合牛津等推出的条件式3D生成模型
AI工具百科:
Amodal3R是什么
Amodal3R 是条件式 3D 生成模型,能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建,通过引入掩码...

