AI软件工具学习大全 | 功能与应用全解析 - 黑喵大叔 - AI视频教程 | AI自动化工作流定制服务 | AI培训学习平台

AI工具百科： GLMZ1Air是什么 GLMZ1Air 是智谱公司推出的基于 GLM4Air0414 的深度思考模型。GLMZ1Air在预训练阶段引入更多推理类数据，在对齐阶段深度优化通用能力，展现出强大的数理...

AI工具百科： Qwen2.5Omni3B是什么 Qwen2.5Omni3B 是阿里巴巴 Qwen 团队推出的轻量级多模态 AI 模型。是 Qwen2.5Omni7B 的精简版，专为消费级硬件设计，支持文本、音频、图像和视频等...

AI工具百科： UniTok是什么 UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器，能同时支持视觉生成和理解任务。基于多码本量化技术，将视觉特征分割成多个小块，每块...

AI工具百科： DDiT是什么 DDiT（Dual Diffusion Transformer）是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型，能统一图像生成和理解任务。模型结合连续图...

AI工具百科： Dolphin是什么 Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法，第一阶段生成文档布局元素序列，第二阶段用元素作为锚点...

AI工具百科： GPDiT是什么 GPDiT（Generative Pretrained Autoregressive Diffusion Transformer）是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型，模型...

AI工具百科： WeGen是什么 WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型，基于自然对话实现多样化的视觉生成任务。 WeGen结合...

AI工具百科： SpatialVLA是什么 SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型，基于百万真实数据预训练，为机器人赋予...

AI工具百科： StreamBridge是什么 StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型（VideoLLMs）框架，能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减...

AI工具百科： Eagle 2.5是什么 Eagle 2.5是英伟达推出的视觉语言模型，专注于长上下文多模态学习的 AI 模型，参数规模仅为 8B。参数量较小，但在处理高分辨率图像和长视频序列方面表现...

AI工具百科： ReasonIR8B是什么 ReasonIR8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.18B 训练，采用双编码器架构，将查询和文档分别编码为嵌入向量，通过余...

AI工具百科： UniFluid是什么 UniFluid 是谷歌 DeepMind 和麻省理工学院联合推出的，统一的自回归框架，用在联合视觉生成和理解任务。基于连续视觉标记处理多模态图像和文本输入，生成...

AI工具