GPDiT–清华北大联合阶跃星辰等推出的视频生成模型

热门教程（视频）

GPDiT–清华北大联合阶跃星辰等推出的视频生成模型 - AI视频工具

AI工具百科：

GPDiT是什么

GPDiT（Generative Pretrained Autoregressive Diffusion Transformer）是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型，模型结合扩散模型和自回归模型的优势，基于自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。

GPDiT引入轻量级因果注意力机制，减少计算成本，推出一种无参数的旋转基时间条件策略，有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色，展示了在多种视频建模任务中的多功能性和适应性。

GPDiT的主要功能

高质量视频生成：生成具有高时间一致性和运动连贯性的长序列视频。

视频表示学习：基于自回归建模和扩散过程，学习视频的语义和动态表示，用在下游任务。

少样本学习：够快速适应多种视频处理任务，如风格转换、边缘检测等。

多任务学习：支持多种视频处理任务，如灰度转换、深度估计、人物检测等。

GPDiT的技术原理

自回归扩散框架：基于自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。

轻量级因果注意力：引入种轻量级因果注意力机制，消除训练期间干净帧之间的注意力计算，减少计算成本，不降低生成性能。

旋转基时间条件机制：推出一种无参数的旋转基时间条件策略，将噪声注入过程重新解释为数据和噪声分量定义的复平面上的旋转，去除adaLNZero及相关参数，有效编码时间信息。

连续潜在空间：在连续潜在空间中进行建模，增强了生成质量和表示能力。

GPDiT的项目地址

arXiv技术论文：https://arxiv.org/pdf/2505.07344

GPDiT的应用场景

视频创作：生成高质量视频，用在广告、影视、动画等。

视频编辑：实现风格转换、色彩调整、分辨率提升等。

少样本学习：快速适应人物检测、边缘检测等任务。

内容理解：自动标注、分类和检索视频内容。

创意生成：激发艺术家和设计师的创意，生成艺术风格视频。

探索更多 AI，让你的效率与认知全面升级

🎓学入门到进阶的 AI 视频教程 🛠知AI 工具库，提高效率 💡会高质量提示词 🚀懂AI 商业趋势与前沿 ⚙用AI 自动化工作流与实战

GPDiT是什么

GPDiT的主要功能

GPDiT的技术原理

GPDiT的项目地址

GPDiT的应用场景

升级VIP

返回顶部

﻿GPDiT–清华北大联合阶跃星辰等推出的视频生成模型

GPDiT是什么

GPDiT的主要功能

GPDiT的技术原理

GPDiT的项目地址

GPDiT的应用场景

猜你喜欢

升级VIP

返回顶部

GPDiT–清华北大联合阶跃星辰等推出的视频生成模型