所有分类
  • 所有分类
  • AI工具
  • AI提示词
  • 课程资源

AI工具百科: SkyworkVL Reward是什么 SkyworkVL Reward是Skywork AI开源的多模态奖励模型,能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5VL7BInstruct架构,基于添加...
26

AI工具百科: VersatileOCRProgram是什么 VersatileOCRProgram是开源多模态OCR工具,支持从复杂的教育材料中提取结构化数据,生成适合机器学习训练的高质量数据集。VersatileOCRProgra...
26

AI工具百科: Mistral Small 3.1是什么 Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,有 240 亿参数,基于 Apache 2.0 许可证发布。在文本和多模态任务上表现出色,支...
29

AI工具百科: VITAAudio是什么 VITAAudio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频...
28

AI工具百科: OThinkMR1是什么 OThinkMR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整KullbackLeibler(KL)散度策略(GRPOD)和奖励模型,提...
24

AI工具百科: 明岐是什么 明岐是上海交通大学计算机学院LoCCS实验室推出的首个精准诊断罕见病的医学多模态大模型。基于“大模型能力矩阵 + 专家路由协同”的双引擎驱动架构,整合医学影...
22

AI工具百科: Motion Anything是什么 Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架,根据文本、音乐或两者的组合生成高质量...
19

AI工具百科: Qwen2.5Omni3B是什么 Qwen2.5Omni3B 是阿里巴巴 Qwen 团队推出的轻量级多模态 AI 模型。是 Qwen2.5Omni7B 的精简版,专为消费级硬件设计,支持文本、音频、图像和视频等...
23

AI工具百科: Liquid是什么 Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大...
26

AI工具百科: XFusion是什么 XFusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中...
19

AI工具百科: DoraCycle是什么 DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(texttoimagetotext 和 imagetotexttoimage)实现不同模...
32

AI工具百科: Qwen2.5Omni是什么 Qwen2.5Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持...
32
加入AI学习第一站,精选2025年,AI工具、提示词、变现教程。 【戳我查看 】资料目录 【戳我登录】获取资料
显示验证码
没有账号?注册  忘记密码?