Sora是如何生成视频的?

Sora 是基于视觉特征标记的 Diffusion Transformer 模型来生成视频的。它的实现原理归结为以下几步:



1、视频信息分解


Sora将输入的视频内容分解成一系列带有时空特性的图像块(Patches)。也就是说,Sora把视频看作是时间和空间的二维画布,将视频分解为小部分或者“块”,每个“块”含有独特的时空特性信息。


2、LLM Paradigm


借鉴了LLM(Large Language Model)的理念,它认为LLM的成功在很大程度上得益于Tokens的使用。因此,对这些带有时空特性的Patches使用了类似的机制。


3、生成过程


首先,Sora接收到人类的文本输入,这个文本输入被称为Prompt。然后,Sora会将Prompt转化为视频的初始想法。这个过程中使用了OpenAI早期的DALL·E模型。DALL·E先将Prompt转化为初始图像,然后,Sora将这个图像进一步发展成视频。这也就是说Sora在生成视频的过程中,首先利用文本输入形成图像,然后根据图像进一步生成视频。


蓝海大脑 京ICP备18017748号-1