Qwen2.5Omni–阿里开源的端到端多模态模型
AI工具百科:
Qwen2.5Omni是什么
Qwen2.5Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持...
SeniorTalk–智源联合南开开源的超高龄老年人中文对话语音数据集
AI工具百科:
SeniorTalk是什么
SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及...
OpenMathNemotron–英伟达开源的数学推理系列模型
AI工具百科:
OpenMathNemotron是什么
OpenMathNemotron是英伟达推出的系列开源数学推理模型,专门用在解决复杂数学问题,包括奥林匹克级别的难题。模型基于大规模数据集OpenMathReaso...
Vid2World–清华联合重庆大学推出视频模型转为世界模型的框架
AI工具百科:
Vid2World是什么
Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基...
WebSSL–Meta联合纽约大学等机构推出的视觉自监督学习系列模型
AI工具百科:
WebSSL是什么
WebSSL(Webscale SelfSupervised Learning)是Meta、纽约大学等机构推出的视觉自监督学习(SSL)系列模型,基于大规模网络数据(如数十亿图像)训练视觉模...
WorldScore–斯坦福大学推出的世界生成模型统一评估基准
AI工具百科:
WorldScore是什么
WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实...
Qwen2.5VL32B–阿里开源的最新多模态模型
AI工具百科:
Qwen2.5VL32B是什么
Qwen2.5VL32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5VL系列的基础上,基于强化学习优化,具备更符合人类偏好的回答风格、显著提...
SimpleAR–复旦大学联合字节Seed团队推出的图像生成模型
AI工具百科:
SimpleAR是什么
SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的...
PixelFlow–港大联合Adobe推出的图像生成模型
AI工具百科:
PixelFlow是什么
PixelFlow 是香港大学和Adobe联合推出的图像生成模型,支持直接在像素空间中生成图像。PixelFlow基于高效的级联流建模,从低分辨率逐步提升到高分辨率,...
MuyanTTS–开源文本转语音模型,零样本语音合成
AI工具百科:
MuyanTTS是什么
MuyanTTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据...
Step1XEdit–阶跃星辰开源的通用图像编辑框架
AI工具百科:
Step1XEdit是什么
Step1XEdit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT4o 和 Gemini2 Flash)之间的性能差距。Step1XEdit结合...
MineWorld–微软研究院开源的实时交互式世界模型
AI工具百科:
MineWorld是什么
MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉动作自回归Transformer架构,将游戏场景和动作转化为离散的t...

