AyaVision–Cohere推出多模态、多语言的视觉模型
AI工具百科:
Aya Vision是什么
Aya Vision 是 Cohere 推出的多模态、多语言...
OpenVision–加州大学开源的视觉编码器家族
AI工具百科:
OpenVision是什么
OpenVision是加州大学圣克鲁兹分校(UCSC)...
UniToken–复旦联合美团等机构推出的统一视觉编码框架
AI工具百科:
UniToken是什么
UniToken 是新型的自回归生成模型,专为多模态...
QLIP–英伟达推出的视觉标记化方法
AI工具百科:
QLIP是什么
QLIP(Quantized LanguageImage Pretraining)是英...
3DVTON–阿里达摩院联合浙大等推出的视频虚拟试穿框架
AI工具百科:
3DVTON是什么
3DVTON(Textured 3DGuided Consistent Video Tr...
GigaTok–港大联合字节推出用于自回归图像生成的视觉分词器
AI工具百科:
GigaTok是什么
GigaTok 是用于自回归图像生成的视觉分词器,参...
UniTok–字节联合港大、华中科技推出的统一视觉分词器
AI工具百科:
UniTok是什么
UniTok 是字节跳动联合香港大学和华中科技大学推...
GPDiT–清华北大联合阶跃星辰等推出的视频生成模型
AI工具百科:
GPDiT是什么
GPDiT(Generative Pretrained Autoregressive Di...
StreamBridge–苹果联合复旦推出的端侧视频大语言模型框架
AI工具百科:
StreamBridge是什么
StreamBridge 是苹果公司与复旦大学联合推...
Eagle2.5–英伟达推出的视觉语言模型
AI工具百科:
Eagle 2.5是什么
Eagle 2.5是英伟达推出的视觉语言模型,专注...
PixelReasoner–滑铁卢联合港科大等高校推出的视觉语言模型
AI工具百科:
Pixel Reasoner是什么
Pixel Reasoner是滑铁卢大学、香港科技...
DanceGRPO–字节Seed联合港大推出的统一视觉生成强化学习框架
AI工具百科:
DanceGRPO是什么
DanceGRPO 是字节跳动 Seed 和香港大学联合推...
- 1
- 2

