Liquid–华中科技、字节、港大联合推出的统一多模态生成框架
AI工具百科:
Liquid是什么
Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大...
XFusion–加州大学联合Adobe等机构推出的多模态融合框架
AI工具百科:
XFusion是什么
XFusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中...
DoraCycle–新加坡国立大学推出多模态领域适应的统一生成模型
AI工具百科:
DoraCycle是什么
DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(texttoimagetotext 和 imagetotexttoimage)实现不同模...
Qwen2.5Omni–阿里开源的端到端多模态模型
AI工具百科:
Qwen2.5Omni是什么
Qwen2.5Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持...
Qwen2.5VL32B–阿里开源的最新多模态模型
AI工具百科:
Qwen2.5VL32B是什么
Qwen2.5VL32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5VL系列的基础上,基于强化学习优化,具备更符合人类偏好的回答风格、显著提...
OmniTalker–阿里推出的实时文本驱动说话头像生成框架
AI工具百科:
OmniTalker是什么
OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。
核...
MMaDA–字节联合普林斯顿大学等推出的多模态扩散模型
AI工具百科:
MMaDA是什么
MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和...
Granite3.2–IBM开源的多模态系列AI模型
AI工具百科:
Granite 3.2是什么
Granite 3.2 是IBM开源的多模态AI模型系列,具备强大的推理、视觉理解和预测能力。Granite 3.2包含多个版本, Granite 3.2 Instruct 提供实验性链式推...
SkyworkVLReward–SkyworkAI开源的多模态奖励模型
AI工具百科:
SkyworkVL Reward是什么
SkyworkVL Reward是Skywork AI开源的多模态奖励模型,能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5VL7BInstruct架构,基于添加...
VersatileOCRProgram–开源多模态OCR工具,精准提取复杂结构化数据
AI工具百科:
VersatileOCRProgram是什么
VersatileOCRProgram是开源多模态OCR工具,支持从复杂的教育材料中提取结构化数据,生成适合机器学习训练的高质量数据集。VersatileOCRProgra...
MistralSmall3.1–MistralAI开源的多模态AI模型
AI工具百科:
Mistral Small 3.1是什么
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,有 240 亿参数,基于 Apache 2.0 许可证发布。在文本和多模态任务上表现出色,支...
VITAAudio–开源的端到端多模态语音大模型,低延迟、推理快
AI工具百科:
VITAAudio是什么
VITAAudio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频...
- 1
- 2