AyaVision–Cohere推出多模态、多语言的视觉模型
AI工具百科:
Aya Vision是什么
Aya Vision 是 Cohere 推出的多模态、多语言的视觉模型,提升全球范围内的多语言和多模态通信能力。支持 23 种语言,能执行图像描述生成、视觉问答、文...
SkyworkR1V–昆仑万维开源的多模态思维链推理模型
AI工具百科:
Skywork R1V是什么
Skywork R1V是昆仑万维开源的首款工业界多模态思维链推理模型,具备强大的视觉链式推理能力。Skywork R1V能对视觉输入进行多步逻辑推理,解决复杂的视...
Magnitude–开源AIAgent驱动的端到端测试框架
AI工具百科:
Magnitude是什么
Magnitude 是开源的视觉 AI Agents驱动的端到端测试框架。Magnitude基于自然语言构建测试用例,用强大的推理代理规划和调整测试流程,基于快速的视觉代...
Liquid–华中科技、字节、港大联合推出的统一多模态生成框架
AI工具百科:
Liquid是什么
Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大...
XFusion–加州大学联合Adobe等机构推出的多模态融合框架
AI工具百科:
XFusion是什么
XFusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中...
PixelReasoner–滑铁卢联合港科大等高校推出的视觉语言模型
AI工具百科:
Pixel Reasoner是什么
Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理...