ai助手工具软件大全_ai助手人工智能体工具软件大全

MotionAnything–腾讯联合京东等高校推出的多模态运动生成框架

AI工具百科： Motion Anything是什么 Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架，根据文本、音乐或两者的组合生成高质量...

100

Qwen2.5Omni3B–阿里Qwen团队推出的轻量级多模态AI模型

AI工具百科： Qwen2.5Omni3B是什么 Qwen2.5Omni3B 是阿里巴巴 Qwen 团队推出的轻量级多模态 AI 模型。是 Qwen2.5Omni7B 的精简版，专为消费级硬件设计，支持文本、音频、图像和视频等...

166

Seed1.5VL–字节跳动Seed推出的视觉语言多模态大模型

AI工具百科： Seed1.5VL是什么 Seed1.5VL 是字节跳动 Seed 团队最新发布的视觉语言多模态大模型，具备强大的通用多模态理解和推理能力，推理成本显著降低。模型由一个 532M 参数的视觉...

108

Liquid–华中科技、字节、港大联合推出的统一多模态生成框架

AI工具百科： Liquid是什么 Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token，与文本token共享同一词汇空间，让大...

155

XFusion–加州大学联合Adobe等机构推出的多模态融合框架

AI工具百科： XFusion是什么 XFusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架，将预训练的大型语言模型（LLMs）扩展到多模态任务中...

134

DoraCycle–新加坡国立大学推出多模态领域适应的统一生成模型

AI工具百科： DoraCycle是什么 DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型，通过两个多模态循环（texttoimagetotext 和 imagetotexttoimage）实现不同模...

144

StarVector–开源多模态视觉语言模型，支持图像和文本到SVG生成

AI工具百科： StarVector是什么 StarVector 是开源的多模态视觉语言模型，ServiceNow Research、Mila – Quebec AI Institute 和 ETS Montreal 联合开发，专注于将图像和文本转换为可缩...

154

Qwen2.5Omni–阿里开源的端到端多模态模型

AI工具百科： Qwen2.5Omni是什么 Qwen2.5Omni 是阿里开源的 Qwen 系列旗舰级多模态模型，拥有7B参数，Qwen2.5Omni具备强大的多模态感知能力，能处理文本、图像、音频和视频输入，支持...

190

Qwen2.5VL32B–阿里开源的最新多模态模型

AI工具百科： Qwen2.5VL32B是什么 Qwen2.5VL32B是阿里巴巴开源的多模态模型，参数规模为32B。模型在Qwen2.5VL系列的基础上，基于强化学习优化，具备更符合人类偏好的回答风格、显著提...

249

OmniTalker–阿里推出的实时文本驱动说话头像生成框架

AI工具百科： OmniTalker是什么 OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术，能同时处理文本、图像、音频和视频等多种模态输入，以流式方式生成自然语音响应。核...

631

MMaDA–字节联合普林斯顿大学等推出的多模态扩散模型

AI工具百科： MMaDA是什么 MMaDA（Multimodal Large Diffusion Language Models）是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型，支持跨文本推理、多模态理解和...

192

SkyworkR1V2.0–昆仑万维开源的新版多模态推理模型

AI工具百科： SkyworkR1V 2.0是什么 SkyworkR1V 2.0 是昆仑万维最新开源的多模态推理模型，专为复杂推理任务设计，具备强大的视觉与文本推理能力。模型基于混合强化学习和多模态奖励模...

188

AI工具