记者观察：Sora带动人工智能行业迈出重要一步

春节期间，OpenAI发布了“文生视频”工具Sora。这是视频行业的一大步，也是人工智能行业的一大步。

“文生视频”工具，顾名思义，Sora能够根据用户输入的指令，快速生成长达1分钟的高清晰度视频。

1分钟是什么概念？

在这之前，全球最火的两家AI视频公司是Runway和Pika。这两家公司的创始人在对外预测2024年的时候，都说有一个核心目标是希望能生成15秒的流畅视频。

因为2023年大部分文字生成的AI视频长度都在4-6秒，所以他们都把能生成15秒视频作为一个里程碑。而这次，Sora直接可以生成60秒的视频，视频中的主角、配角和背景，都达到了惊人的一致和逼真。

数秒钟到一分钟的进步让人震撼，其原因在于OpenAI的解题思路完全不同。

根据OpenAI的介绍，Sora通过学习视频，来理解现实世界的动态变化，并用计算机视觉技术模拟这些变化，从而创造出新的视觉内容。换句话说，Sora学习的不仅仅是视频，也不仅仅是视频里的画面、像素点，还在学习视频里面那个世界的“物理规律”。

举个例子，你咬一口食物，食物应该出现一个咬痕。这是“物理规律”。如果咬完之后，食物还是完整的，那就不符合“物理规律”。

大部分的视频软件，并不理解“物理规律”。他们处理的对象，只是画面。但是，Sora学习人咬食物的视频时，它记住的，不仅是“咬”这个画面，还有“咬就会有痕”这个“物理规律”。以后生成视频时，一旦有“咬”这个动作，Sora就会知道，下面应该出现一个咬痕了。

Sora能从视频中学习物理规律，这是人工智能的一大步。

我们现在不觉得人工智能厉害，那是因为它现在只是虚拟的程序，还被困在计算机的世界里，所以就只能写诗，作画，做视频。

我们开个脑洞，如果把Sora的能力跟人形机器人结合起来，让AI和人类生活在一起，让它从现实世界自主学习，会发生什么？如果把地球上的摄像头、雷达、卫星变成它的眼睛，给它开一双“天眼”，又会发生什么？

根据周鸿祎的判断，视频的信息量远远超过文字，AGI

本文收集整理自网络，如有侵权，请联系删除。