What is OpenAI Sora?--小白必看

什么是Sora？

2024年2月16日，OpenAI 在其官网上面正式宣布推出文本生成视频的大模型 Sora:

（PS：目前 OpenAI 官方还未完全开放 Sora ，不过根据文生图模型案例，一定是先开放给 ChatGPT Plus 付费用户使用，需要注册或者升级 GPT Plus 可以看这个教程: 2024年升级ChatGPT Plus最详细图文教程（新手小白必看），一分钟完成升级）

今天，我们都在感受 Sora 的带来的魅力。

OpenAI 的首个视频生成模型 Sora，让「一句话生成视频」的前沿 AI 技术向上突破了一大截，引发了业界对于生成式 AI 技术方向的大讨论。

Sora 不是一个简单的视频生成器，它是一个数据驱动的物理引擎，其对于虚拟和现实世界进行模拟。在这个过程中，模拟器通过一些去噪和梯度数学方法来学习复杂的视觉渲染，构建出「直观」的物理效果，以及进行长期推理和语义基础。

Sora生成的视频案例

这里只放了各个视频的截图，想看原视频的童鞋可以去这个网站：sora video

Text To Video：文本生成视频

案例1：Prompt: cinematic trailer for a group of samoyed puppies learning to become chefs

翻译：一群学习成为厨师的萨摩耶小狗的电影预告片

案例2：Prompt: minecraft with the most gorgeous high res 8k texture pack ever

翻译：Minecraft有史以来最华丽的High Res 8K纹理包

案例3：Prompt：The camera lowers and widens to a grand panoramic view overlooking the beautiful ocean and the historical buildings along the a stunning coastal picturesque town perched on the cliffs.

翻译：镜头降低和扩大到壮丽的全景，沿着悬崖上风景如画的迷人沿海小镇俯瞰美丽的海洋和历史建筑。

案例4：Prompt：A giant cathedral is completely filled with cats. there are cats everywhere you look. A man enters the cathedral and bows before the giant cat king sitting on a throne.

翻译：一个巨大的大教堂里完全挤满了猫，目光所及之处到处都是猫。一个男人走进大教堂，向坐在宝座上的巨型猫王面前鞠躬。

Image To Video：图片生成视频

案例1：Prompt：A Shiba Inu dog wearing a beret and black turtleneck.

翻译：一只穿着贝雷帽和黑色高领毛衣的柴犬。

Image：

生成的视频截图如下：

案例2：Prompt：In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.

翻译：在一个华丽的历史大厅里，一个巨大的潮汐达到顶峰并开始崩溃。两名冲浪者抓住时机，熟练地驾驭海浪。

Image：

生成的视频截图如下：

Connecting Videos：连接视频

The videos in the center interpolate between the corresponding videos on the left and right.

翻译：中间的视频在左侧和右侧的相应视频之间进行插值。

我们可以使用 Sora 在两个输入视频之间逐渐进行转场，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。

左边的视频截图：

右边的视频截图：

中间的连接得到的视频截图：

如何使用Sora？

（PS：目前 OpenAI 官方还未完全开放 Sora ，不过根据文生图模型案例，一定是先开放给 ChatGPT Plus 付费用户使用，需要注册或者升级 GPT Plus 可以看这个教程: 2024年手把手教你升级 ChatGPT Plus（附一键升级攻略），一分钟完成升级）

使用Sora前的准备工作

在开始之前，确保您已经拥有了OpenAI账目，并获得了Sora的访问权限。准备好您想要转化成视频的文本描述，记住越详细越好。

Sora使用步骤一：文本描述

登录您的OpenAI账户，找到Sora的使用界面。在指定区域输入您的文本描述，可以是一个故事概述、场景描述或是具体的动作指令。

Sora使用步骤二：生成视频

完成文本描述和自定义设置后，点击“生成视频”按钮。Sora将开始处理您的请求，这可能需要几分钟时间。完成后，您可以预览生成的视频。

需要注意的是，截止2024年2月18日，OpenAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。

Sora背后的技术原理

在 Sora 推出后，OpenAI 很快公布了技术报告。OpenAI 在技术报告中重点展示了：（1）将所有类型的视觉数据转化为统一表示，从而能够大规模训练生成模型的方法；以及（2）对 Sora 的能力和局限性进行定性评估。

令人遗憾的是，OpenAI 的报告不包含模型和训练的细节。

OpenAI 探索了视频数据生成模型的大规模训练。具体来说，研究人员在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散模型。作者利用对视频和图像潜在代码的时空补丁进行操作的 transformer 架构，其最大的模型 Sora 能够生成长达一分钟的高质量视频。

OpenAI 认为，新展示的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

技术报告地址：https://openai.com/research/video-generation-models-as-world-simulators

视觉数据转为 Patches

大型语言模型通过在互联网规模的数据上进行训练，获得了出色的通用能力中，OpenAI 从这一点汲取了灵感。LLM 得以确立新范式，部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。

视频压缩网络

OpenAI 训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入，并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练，而后生成视频。OpenAI 还训练了相应的解码器模型，将生成的潜在表示映射回像素空间。

时空潜在 patches

给定一个压缩的输入视频，OpenAI 提取一系列时空 patches，充当 Transformer 的 tokens。该方案也适用于图像，因为图像可视为单帧视频。OpenAI 基于 patches 的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，OpenAI 可以通过在适当大小的网格中排列随机初始化的 patches 来控制生成视频的大小。

用于视频生成的缩放 Transformer

Sora 是个扩散模型；给定输入噪声 patches（以及文本提示等调节信息），训练出的模型来预测原始的「干净」patches。重要的是，Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的缩放特性，包括语言建模、计算机视觉、和图像生成。

可变的持续时间，分辨率，宽高比

过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸，例如 4 秒的视频分辨率为 256x256。相反，该研究发现在原始大小的数据上进行训练，可以提供以下好处：

首先是采样的灵活性：Sora 可以采样宽屏视频 1920x1080p，垂直视频 1920x1080p 以及两者之间的视频。这使 Sora 可以直接以其天然纵横比为不同设备创建内容。Sora 还允许在生成全分辨率的内容之前，以较小的尺寸快速创建内容原型 —— 所有内容都使用相同的模型。

语言理解

具体来说，研究团队首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中所有视频生成文本字幕。研究团队发现，对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。

与 DALL・E3 类似，研究团队还利用 GPT 将简短的用户 prompt 转换为较长的详细字幕，然后发送到视频模型。这使得 Sora 能够生成准确遵循用户 prompt 的高质量视频。

降维打击，Sora与Runway、Pika的对比

当然，随着 Sora 加入这场视频生成领域的战争，受到冲击最大的是同类竞品模型，比如 Runway、Pika、SDV、谷歌和 Meta。

看到 Sora 的生成效果之后，很多人认为，Sora 对这些「前辈」来了一波降维打击。事实真的如此吗？有推特博主已经做了对比。

这位博主给 Sora、Pika、Runway、Stable Video 四个模型输入了相同的 prompt：Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

翻译：美丽、白雪皑皑的东京熙熙攘攘，镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，在附近的摊位购物，绚丽的樱花花瓣随着雪花随风飘扬。

图片来源：https://twitter.com/gabor/status/1758282791547232482

可以看到，相比于其他三个视频生成模型，Sora 在生成时长、连贯性等方面都有显著的优势。

再比如输入Prompt：A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

翻译：一窝金毛幼犬在雪地里玩耍，它们的头从雪中探出来，被雪覆盖。

图片来源: https://twitter.com/DailyUpdatesNet/status/1758646902751670355

我们再输入Prompt：Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

翻译：几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走来，长长的毛在风中轻轻飘动，远处覆盖着积雪的树木，背后是雄伟壮观的雪山，午后的阳光、缕缕云彩和远处高高的太阳营造出温暖的光芒，低相机视野令人惊叹地捕捉到了大型毛茸茸的哺乳动物与美丽的摄影、景深。

图片来源：https://twitter.com/keitowebai/status/1758384152670577136

虽然 Runway 和 Pika 表现都不错，但 Sora 的生成质量具有压倒性的优势。

Sora的局限性

作为一款模拟器，Sora 目前还存在许多局限性。例如，它不能准确模拟许多基本交互的物理现象，如玻璃碎裂。其他交互，如吃食物，并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式，例如长时间样本中出现的不一致性或物体的自发出现。

案例1：Prompt：Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.

翻译：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并掸去了上面的灰尘。

案例2：玻璃破碎

案例3：篮球穿过篮筐后爆炸

PS：目前 OpenAI 官方还未完全开放 Sora ，不过根据文生图模型案例，一定是先开放给 ChatGPT Plus 付费用户使用，需要注册或者升级 GPT Plus 可以看这个教程: 2024年手把手教你升级 ChatGPT Plus（附一键升级攻略），一分钟完成升级。

服务类型	教程
ChatGPT Plus	2024年升级ChatGPT Plus最详细图文教程 2024年手把手教你升级 ChatGPT Plus 2024年教你使用电子邮箱轻松注册chatgpt账号 ChatGPT 无法登录提示「Unable to load site」怎么办？
Claude 3	Claude 3 打响科技“军备”竞赛之一——【什么是 Claude 3？】 Claude 3 打响科技“军备”竞赛之二——【如何升级 Claude 3？】
Apple ID【美区】	苹果手机如何注册美区Apple ID并绑卡（解决支付问题）？
Onlyfans	2024年手把手教你使用虚拟信用卡订阅 Onlyfans
Midjourney	什么是 Midjourney 以及如何订阅 Midjourney？
OpenAI Sora	What is OpenAI Sora?–小白必看
YouTube	【2024】如何订阅 YouTube Premium 会员服务？
Gmail谷歌邮箱	【2024】如何注册Gmail谷歌邮箱？