记者观察:Sora带动人工智能行业迈出重要一步

春节期间,OpenAI发布了“文生视频”工具Sora。这是视频行业的一大步,也是人工智能行业的一大步。

“文生视频”工具 ,顾名思义,Sora能够根据用户输入的指令,快速生成长达1分钟的高清晰度视频。

1分钟是什么概念?

在这之前,全球最火的两家AI视频公司是Runway和Pika。这两家公司的创始人在对外预测2024年的时候,都说有一个核心目标是希望能生成15秒的流畅视频。

因为2023年大部分文字生成的AI视频长度都在4-6秒,所以他们都把能生成15秒视频作为一个里程碑。而这次,Sora直接可以生成60秒的视频,视频中的主角、配角和背景,都达到了惊人的一致和逼真。

数秒钟到一分钟的进步让人震撼,其原因在于OpenAI的解题思路完全不同。

根据OpenAI的介绍,Sora通过学习视频,来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容。换句话说,Sora学习的不仅仅是视频,也不仅仅是视频里的画面、像素点,还在学习视频里面那个世界的“物理规律”。

举个例子,你咬一口食物,食物应该出现一个咬痕。这是“物理规律”。如果咬完之后,食物还是完整的,那就不符合“物理规律”。

大部分的视频软件,并不理解“物理规律”。他们处理的对象,只是画面。但是,Sora学习人咬食物的视频时,它记住的,不仅是“咬”这个画面,还有“咬就会有痕”这个“物理规律”。以后生成视频时,一旦有“咬”这个动作,Sora就会知道,下面应该出现一个咬痕了。

Sora能从视频中学习物理规律,这是人工智能的一大步。

我们现在不觉得人工智能厉害,那是因为它现在只是虚拟的程序,还被困在计算机的世界里,所以就只能写诗,作画,做视频。

我们开个脑洞,如果把Sora的能力跟人形机器人结合起来,让AI和人类生活在一起,让它从现实世界自主学习,会发生什么?如果把地球上的摄像头、雷达、卫星变成它的眼睛,给它开一双“天眼”,又会发生什么?

根据周鸿祎的判断,视频的信息量远远超过文字,AGI

版权声明

本文收集整理自网络,如有侵权,请联系删除。

分享:

扫一扫在手机阅读、分享本文

网友评论

标签列表