记者观察:Sora带动人工智能行业迈出重要一步
“文生视频”工具 ,顾名思义,Sora能够根据用户输入的指令,快速生成长达1分钟的高清晰度视频。
1分钟是什么概念?
在这之前,全球最火的两家AI视频公司是Runway和Pika。这两家公司的创始人在对外预测2024年的时候,都说有一个核心目标是希望能生成15秒的流畅视频。
因为2023年大部分文字生成的AI视频长度都在4-6秒,所以他们都把能生成15秒视频作为一个里程碑。而这次,Sora直接可以生成60秒的视频,视频中的主角、配角和背景,都达到了惊人的一致和逼真。
数秒钟到一分钟的进步让人震撼,其原因在于OpenAI的解题思路完全不同。
根据OpenAI的介绍,Sora通过学习视频,来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容。换句话说,Sora学习的不仅仅是视频,也不仅仅是视频里的画面、像素点,还在学习视频里面那个世界的“物理规律”。
举个例子,你咬一口食物,食物应该出现一个咬痕。这是“物理规律”。如果咬完之后,食物还是完整的,那就不符合“物理规律”。
大部分的视频软件,并不理解“物理规律”。他们处理的对象,只是画面。但是,Sora学习人咬食物的视频时,它记住的,不仅是“咬”这个画面,还有“咬就会有痕”这个“物理规律”。以后生成视频时,一旦有“咬”这个动作,Sora就会知道,下面应该出现一个咬痕了。
Sora能从视频中学习物理规律,这是人工智能的一大步。
我们现在不觉得人工智能厉害,那是因为它现在只是虚拟的程序,还被困在计算机的世界里,所以就只能写诗,作画,做视频。
我们开个脑洞,如果把Sora的能力跟人形机器人结合起来,让AI和人类生活在一起,让它从现实世界自主学习,会发生什么?如果把地球上的摄像头、雷达、卫星变成它的眼睛,给它开一双“天眼”,又会发生什么?
根据周鸿祎的判断,视频的信息量远远超过文字,AGI
版权声明
本文收集整理自网络,如有侵权,请联系删除。