Liquid–华中科技、字节、港大联合推出的统一多模态生成框架
AI工具百科:
Liquid是什么
Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大...
LightR1–360智脑开源的长思维链推理模型
AI工具百科:
LightR1是什么
LightR1是360智脑开源的AI模型,专注于数学领域的长思维链推理,具体为 LightR132B。模型基于Qwen2.532BInstruct,用7万条数学数据和两阶段课程学习(SFT+...
TheoremExplainAgent–AI教学双智能体,数理化定理自动转动画
AI工具百科:
TheoremExplainAgent是什么
TheoremExplainAgent(TEA)是滑铁卢大学、Votee AI等机构开源的多模态代理系统,基于生成长篇动画视频帮助人们更好地理解数学和科学定理。Th...
DeepSeekProverV2–DeepSeek推出的开源数学推理大模型
AI工具百科:
DeepSeekProverV2是什么
DeepSeekProverV2是深度求索团队 DeepSeek 开源的专注于数学推理的超大规模语言模型。包含两个版本:DeepSeekProverV2671B 和 DeepSeekProverV27...
HiDreamI1–智象未来开源的AI图像生成模型
AI工具百科:
HiDreamI1是什么
HiDreamI1是 HiDream.ai 团队推出的开源AI图像生成模型,拥有17亿参数,采用MIT许可证。模型在图像生成质量、提示词遵循能力等方面表现出色,支持逼真、...
OrpheusTTS–开源AI语音合成系统,支持多种语音风格
AI工具百科:
Orpheus TTS是什么
Orpheus TTS 是基于 Llama3b 架构的开源文本到语音(TTS)系统。Orpheus TTS 支持生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,...
RelightVid–上海AILab联合复旦等高校推出的视频重照明模型
AI工具百科:
RelightVid是什么
RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型,支持根据文本提示、...
MegaTTS3–字节与浙江大学合作推出的零样本语音合成系统
AI工具百科:
MegaTTS 3是什么
MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语音分解为内容...
WorldPM–阿里Qwen团队联合复旦推出的偏好建模模型系列
AI工具百科:
WorldPM是什么
WorldPM(World Preference Modeling)是阿里巴巴集团的Qwen团队和复旦大学推出的偏好建模模型系列。基于大规模训练揭示偏好模型的可扩展性。模型基于1500...
StepVideoTI2V–阶跃星辰开源的图生视频模型
AI工具百科:
StepVideoTI2V是什么
StepVideoTI2V 是阶跃星辰(StepFun)推出的开源图生视频(ImagetoVideo)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的...
CosmosReason1–NVIDIA推出的系列多模态大语言模型
AI工具百科:
CosmosReason1是什么
CosmosReason1 是NVIDIA推出的系列多模态大语言模型,模型能生成基于物理现实的响应。CosmosReason1 包含两个模型:CosmosReason17B 和 CosmosReaso...
GaussianCity–南洋理工大学SLab团队推出的3D城市生成框架
AI工具百科:
GaussianCity是什么
GaussianCity 是南洋理工大学 SLab 团队推出的高效无边界3D城市生成框架,基于3D高斯绘制(3DGS)技术。引入紧凑的 BEVPoint 表示方法,将场景的显存...

