Qwen2.5VL32B–阿里开源的最新多模态模型
AI工具百科:
Qwen2.5VL32B是什么
Qwen2.5VL32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5VL系列的基础上,基于强化学习优化,具备更符合人类偏好的回答风格、显著提...
OmniTalker–阿里推出的实时文本驱动说话头像生成框架
AI工具百科:
OmniTalker是什么
OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。
核...
MMaDA–字节联合普林斯顿大学等推出的多模态扩散模型
AI工具百科:
MMaDA是什么
MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和...