PixelReasoner–滑铁卢联合港科大等高校推出的视觉语言模型
AI工具百科:
Pixel Reasoner是什么
Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理...
MoshiVis–Kyutai开源的多模态实时语音模型
AI工具百科:
MoshiVis是什么
MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉...
CopilotSearch–微软Bing推出的智能搜索模式
AI工具百科:
Copilot Search是什么
Copilot Search 是微软 Bing 推出的智能搜索模式,融合传统搜索和生成式 AI 的优势。基于智能信息整合,根据用户的查询提供简洁的总结、清晰的答案...
NoteLLM–小红书推出的笔记推荐多模态大模型框架
AI工具百科:
NoteLLM是什么
NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理...
WebSSL–Meta联合纽约大学等机构推出的视觉自监督学习系列模型
AI工具百科:
WebSSL是什么
WebSSL(Webscale SelfSupervised Learning)是Meta、纽约大学等机构推出的视觉自监督学习(SSL)系列模型,基于大规模网络数据(如数十亿图像)训练视觉模...
VideoT1–清华联合腾讯推出的视频生成技术
AI工具百科:
VideoT1是什么
VideoT1 是清华大学和腾讯的研究人员共同推出的视频生成技术,基于测试时扩展(TestTime Scaling,TTS)提升视频生成的质量和一致性。传统视频生成模型在...
Qwen2.5VL32B–阿里开源的最新多模态模型
AI工具百科:
Qwen2.5VL32B是什么
Qwen2.5VL32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5VL系列的基础上,基于强化学习优化,具备更符合人类偏好的回答风格、显著提...
InfiniteMobility–上海AILab推出的可交互物体生成模型
AI工具百科:
Infinite Mobility是什么
Infinite Mobility 是上海AI Lab推出的可交互物体生成模型,基于程序化生成技术,高效生成高质量的可交互物体数据资产。
Infinite Mobility...
KimiVL–月之暗面开源的轻量级多模态视觉语言模型
AI工具百科:
KimiVL是什么
KimiVL 是月之暗面开源的轻量级多模态视觉语言模型,基于轻量级MoE模型Moonlight(16B总参数,2.8B激活参数)和原生分辨率的MoonViT视觉编码器(400M参数)...
FoxBrain–鸿海研究院推出的推理大语言模型
AI工具百科:
FoxBrain是什么
FoxBrain 是鸿海研究院推出的繁体中文大型语言模型(LLM),具有强大的推理能力。基于 Meta Llama 3.1 架构,拥有 70B 参数,专注于数学和逻辑推理领域。...

