所有分类
  • 所有分类
  • AI工具
  • AI提示词
  • 课程资源

GPDiT–清华北大联合阶跃星辰等推出的视频生成模型

热门教程(视频)

GPDiT–清华北大联合阶跃星辰等推出的视频生成模型 - AI视频工具

AI工具百科:

GPDiT是什么

GPDiT(Generative Pretrained Autoregressive Diffusion Transformer)是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型,模型结合扩散模型和自回归模型的优势,基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。

GPDiT引入轻量级因果注意力机制,减少计算成本,推出一种无参数的旋转基时间条件策略,有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色,展示了在多种视频建模任务中的多功能性和适应性。

GPDiT的主要功能

高质量视频生成:生成具有高时间一致性和运动连贯性的长序列视频。

视频表示学习:基于自回归建模和扩散过程,学习视频的语义和动态表示,用在下游任务。

少样本学习:够快速适应多种视频处理任务,如风格转换、边缘检测等。

多任务学习:支持多种视频处理任务,如灰度转换、深度估计、人物检测等。

GPDiT的技术原理

自回归扩散框架:基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。

轻量级因果注意力:引入种轻量级因果注意力机制,消除训练期间干净帧之间的注意力计算,减少计算成本,不降低生成性能。

旋转基时间条件机制:推出一种无参数的旋转基时间条件策略,将噪声注入过程重新解释为数据和噪声分量定义的复平面上的旋转,去除adaLNZero及相关参数,有效编码时间信息。

连续潜在空间:在连续潜在空间中进行建模,增强了生成质量和表示能力。

GPDiT的项目地址

arXiv技术论文:https://arxiv.org/pdf/2505.07344

GPDiT的应用场景

视频创作:生成高质量视频,用在广告、影视、动画等。

视频编辑:实现风格转换、色彩调整、分辨率提升等。

少样本学习:快速适应人物检测、边缘检测等任务。

内容理解:自动标注、分类和检索视频内容。

创意生成:激发艺术家和设计师的创意,生成艺术风格视频。

0
加入AI学习第一站,精选2025年,AI工具、提示词、变现教程。 【戳我查看 】资料目录 【戳我登录】获取资料
显示验证码
没有账号?注册  忘记密码?