所有分类
  • 所有分类
  • AI提示词
  • AI培训视频教程

AI工具百科: Qwen2.5Omni是什么 Qwen2.5Omni 是阿里开源的 Qwen 系列旗舰级多模态模型,拥有7B参数,Qwen2.5Omni具备强大的多模态感知能力,能处理文本、图像、音频和视频输入,支持...

AI工具百科: SeniorTalk是什么 SeniorTalk 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)推出的全球首个中文超高龄老年人对话语音数据集。数据集包含202位75岁及...

AI工具百科: OpenMathNemotron是什么 OpenMathNemotron是英伟达推出的系列开源数学推理模型,专门用在解决复杂数学问题,包括奥林匹克级别的难题。模型基于大规模数据集OpenMathReaso...

AI工具百科: Vid2World是什么 Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基...

AI工具百科: WebSSL是什么 WebSSL(Webscale SelfSupervised Learning)是Meta、纽约大学等机构推出的视觉自监督学习(SSL)系列模型,基于大规模网络数据(如数十亿图像)训练视觉模...

AI工具百科: WorldScore是什么 WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实...

AI工具百科: Qwen2.5VL32B是什么 Qwen2.5VL32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5VL系列的基础上,基于强化学习优化,具备更符合人类偏好的回答风格、显著提...

AI工具百科: SimpleAR是什么 SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的...

AI工具百科: PixelFlow是什么 PixelFlow 是香港大学和Adobe联合推出的图像生成模型,支持直接在像素空间中生成图像。PixelFlow基于高效的级联流建模,从低分辨率逐步提升到高分辨率,...

AI工具百科: MuyanTTS是什么 MuyanTTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据...

AI工具百科: Step1XEdit是什么 Step1XEdit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT4o 和 Gemini2 Flash)之间的性能差距。Step1XEdit结合...

AI工具百科: MineWorld是什么 MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉动作自回归Transformer架构,将游戏场景和动作转化为离散的t...
戳我👆免费下载:全球AI领域大咖课、AI全能商业技能教程、国外大神AI商业课...
显示验证码