VITAAudio–开源的端到端多模态语音大模型,低延迟、推理快
AI工具百科:
VITAAudio是什么
VITAAudio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频...
OThinkMR1–OPPO联合港科大推出的多模态语言模型优化框架
AI工具百科:
OThinkMR1是什么
OThinkMR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整KullbackLeibler(KL)散度策略(GRPOD)和奖励模型,提...
明岐–上海交大推出的医学多模态大模型,精准诊断罕见病
AI工具百科:
明岐是什么
明岐是上海交通大学计算机学院LoCCS实验室推出的首个精准诊断罕见病的医学多模态大模型。基于“大模型能力矩阵 + 专家路由协同”的双引擎驱动架构,整合医学影...
MotionAnything–腾讯联合京东等高校推出的多模态运动生成框架
AI工具百科:
Motion Anything是什么
Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架,根据文本、音乐或两者的组合生成高质量...