让中美差距拉大的Sora是什么？好莱坞和AI视觉创业公司会挂掉吗？

2月16日凌晨，OpenAI发布了自己的首个AI视频生成模型—Sora。这是一个历史性的里程碑，扩散模型结合OpenAI大获成功的transformer，在视觉领域实现了与大语言模型类似的突破。毫无疑问，视觉生成领域将有一次大的技术和商业革命。

本文将分别讨论：1. Sora是什么，怎么工作的，2. Sora引发的产业机会，3. 是不是大树之下寸草不生，这个领域的创业公司都要"挂"了。

Sora是什么？怎么工作的

Sora在多个方面重新定义了AI视频生成模型的标准：

a.它将视频时长从当前的5-15秒，直接提升到了1分钟，这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看，如果需要，超过1分钟毫无任何悬念。

b.它可以生成多个镜头，并且各个镜头具有角色和视觉风格的一致性。

c.不仅可以用文字prompt生成视频，还支持视频到视频的编辑，当然也可以生成高质量的图片，Sora甚至还可以拼接完全不同的视频，使之合二为一、前后连贯。

d.它是扩散模型，更是扩散+Transformer的视觉大模型，并且产生了涌现现象，对现实世界有了更深刻的理解和互动能力，具有了世界模型的雏形。

它能生成更真实，一致性更强的多镜头长视频

OpenAI官方公布了数十个示例视频，充分展示了Sora模型的强大能力。

人物的瞳孔、睫毛、皮肤纹理，都逼真到看不出一丝破绽，真实性与以往的AI生成视频是史诗级的提升，AI视频与现实的差距，更难辨认。

无人机视角的东京街头景色，让Sora在复杂场景展现，人物动作自然度等方面的优势展露无遗。

在山道上穿梭的复古SUV，可以看到真实性很高。

Sora可以在两个输入视频之间逐渐进行转场，在完全不同主题和场景构成的视频之间创建无缝过渡。

扩散模型+Transformer如何工作的

OpenAI的团队从大语言模型的大规模训练中汲取了灵感，对应大语言模型的文本数据表示tokens，它们将视觉数据分割成数据块，首先将视频压缩到较低维的隐式特征，然后分解为时空数据块，这些数据块的作用就相当于token在大语言模型中的作用，用于训练Sora。

讲中文，就是Sora把图片/视频都token化了。

Sora是一个基于扩散模型（Diffusion Model）的视频模型，但是它是一个扩散Transformer模型，Transformer已经证明了把语言、视觉和图像生成一同实现的强大能力。

它基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重标注技术，通过GPT的能力，使模型更加准确地遵循用户的文本指令生成视频。

所以，Sora是扩散模型+transformer的视觉大模型。

除了能根据文本指令生成视频外，这款模型还能将现有的静态图像转化成视频，精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora的出现，进一步拉大了中美在AI方面的差距。

Sora仍有很大缺陷

但是，尽管Sora在技术和性能表现上有了巨大的提升，它仍有不少的局限性，在理解复杂场景的物理原理、因果关系、空间细节、时间推移上存在弱点。例如它不能很好地表现玻璃碎裂。

还有在吹蜡烛之前和吹蜡烛之后，火苗没有丝毫变化。

它也搞反了人在跑步机上跑步的方向。

OpenAI只是提供了生成的视频展示，随着Sora的发布，同时还引发了人们对滥用视频生成技术的担忧。为此，公司并未向外正式开放Sora的使用，而是精心挑选了一批"受信任"的专业人士做测试。

Sora引发的产业机会

首先，这是一个里程碑式的技术进步。

其次，在视频应用的场景中，能展示不等于能实用。如果说实现商业化需要做到100分（60分技术+40分场景），以往人工能做到90分，Sora的出现只解决了那60分，甚至到75分，还是有一段商业化的路径，需要靠人工或技术+商业创新完成。

第一，可控性。无论是商业场景还是创作场景，视频要按照人的意志或客观规律完成动作，这无疑是个巨大的挑战。

举个例子，有人提出物理模型，实际上目前的Sora能精美生成和炫技，但如果要能展示特定场景，比如一个皮球掉到地上反复弹起来，是要一个物理模型支撑的，目前Diffusion+transformer还无法解决。

第二，prompt（提示词）的挑战本身仍然是个技术活儿，视觉领域，一般非专业人员很难用好视觉的生成，这既需要训练，更有待技术突破，让外行变内行。

所以，创作要面向实用场景，空间依旧很大。75分之上，都是场景创新的机会。

场景创新的机会，属于懂场景、懂模型的创造者。

对于好莱坞，大家看过《繁花》就知道了。面对王家卫那样的大导演，科技创新的工具，目前最多可以提高实现指定场景的效率。宝总、玲子、爷叔短时间内是机器替代不了的。

我们看到的可能不是AI让电影人失业，而是AI让电影人们创造更好的作品。

国内外一批创新公司要挂了吗？

首先，赢家未必通吃。美国的商业生态有个显著特点，就是一流公司做平台，二流公司做全线产品，三流公司搞客户。

OpenAI的Sora，是一个伟大的工程进步，有一点像工业界走在了国家拨款支持科研的前面（整个LLM的出现就是这样，搞得学者们很被动），只是这个突破在工业界而不是学界最先实现，距离商业化还有一段路要走。

领先的公司要在关键领域确保自己的领导地位，突破技术，建立平台，也会做垂类应用，但更重视吸引广大开发者参与，而不是有点突破就摊大饼，把应用都做完。这一点，在之前的文章中就分析过。

所以，60分之上，仍有很大空间。这点，看看Salesforce上千家应用就清楚了。

其次，根据OpenAI的论文看，支持60秒视频的路径讲的很清楚，帮助很多创业公司节约了数以千万计的探索成本（向OpenAI致敬！），但同时也给创业者提供了很大的想象空间。

如果只要15秒，如果提高视频主体的高度可控性，如果需要控制主体在视频中的路径，会不会有其它的选择？Diffusion transformer是不是有更好的用法？还是那句话，模型能力决定了一个创业团队的高度，60分之上，模型支撑的应用见分晓。会模型、懂应用的创业公司大有机会。

在美国这个市场里，跟跑的大公司喜欢选择通过兼并收购拉近差距，小团队跑得快，起跑快并进大公司价值高。

国内的兼并收购不那么活跃，大厂喜欢下场什么都做。但是OpenAI跑得这么快，这么大的赛道上机会层出不穷，大厂难免没别的想法。

还是那句话，这是一个让狮子和土狼一起奔向光明的大赛场。

当然，视频大模型的背后是训练和推理算力的超线性增长，楚河汉界的两边，需求量分别再次加大，算力、基础设施、工具层需求加大，分别给中美创业者提供了更多新机会。

参考文献：

1.OpenAI. Video generation models as world simulators.

https://openai.com/research/video-generation-models-as-world-simulators

2.MIT Technology review. OpenAI teases an amazing new generative video model called Sora.

https://www.technologyreview.com/2024/02/15/1088401/openai-amazing-new-generative-ai-video-model-sora/

3.本文部分视频和动图来自网络。