除了震惊、炸裂和行业洗牌,我们来聊聊Sora对普通人的意义
Sora的横空出世,在我朋友圈久违地掀起了又一轮AI讨论热潮。有兴奋的、有担忧的、有唱衰的、也有客观看待的。
我读了几篇很标题党的文章,发现讨论都集中在视频长度、清晰度、多镜头一致性、物理真实性等方向上。Sora放出的大量prompt和Demo,确实让人大开眼界,似乎在未来,任何人都可以仅凭几句话就创作一部影视剧,你在线上的所见所闻是真实还是虚拟几乎从考量,细思极恐,却又让人期待万分。
当天我也在AI群里贡献了自己的观点:
不过这些表象信息,我能想到的和大家也没什么区别——当下技术不成熟,但未来可期。
而真正让我好奇的,反而是藏在它背后的一系列问题:
为什么是Sora?它和Pika、Runway到底有什么区别?凭什么它有60秒别人只能3秒?为什么它能做到别人无法企及的各种特性?这项技术什么时候可以成熟到能开放出来使用?面对这样的新趋势,我们可以提前准备些什么?
带着这些疑问,我用一天时间,仔细研究了Sora背后的技术说明书:
https://openai.com/research/video-generation-models-as-world-simulators
完后意犹未尽,又延展阅读了末尾3篇我认为比较关键的论文原文:
ViViT: A Video Vision Transformer
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Scalable Diffusion Models with Transformers
了解了它背后的底层原理,才稍微对上面的问题有了些答案。在这里也分享给能看到这篇文章的你。
我认为,之所以Sora表现的如此强大,背后有3点关键原因:
第一,使用了Transformer架构的Diffusion扩散模型
本质上Sora和Pika、Runway采用的底层模型是类似的,都是Diffusion扩散模型。不同之处在于,Sora把其中的实现逻辑:U-Net架构,替换成了Transformer架构。
基于Transformer的实现,依赖视觉数据向量化。Sora用visual patches代表被压缩后的视频向量进行训练,就像用tokens代表被向量后的文字一样。这个patches同时带有时间和空间信息,还可以自由排列,灵活度极高,这也是为什么Sora能不限分辨率、持续时间和视频尺寸进行训练。而之所以Sora把Diffusion噪点还原的如此真实,背后依赖的就是transformers的扩展效果。
《Scalable diffusion models with transformers》详细解释了这背后的编解码原理:通过增加transformer模型的深度、宽度和输入patches的数量,可以显著提高视觉保真度。而在《ViViT: A Video Vision Transformer》这篇论文里,更加详细解释了transformer架构如何应用在视频领域:先从空间上对单帧视频进行Embed,再从时间上把多帧进行再编码,完成时间套空间的双层嵌套,再把这些时间、空间的位置信息放到MLP Head进行分类存储,很像是TCP/IP协议的编解码传输原理。
总结下来的结论就是:
只要算力足够,理论上,Sora生成视频的长度可以无限长,图像效果可以无限接近真实。对普通人来说,用上Sora生成长视频确实只是时间问题,而这个时间则依赖硬件算力是否能跟上,所以,无脑入NV的坑吧~
此外,上述论文早在21年就已经完成,Runway这样的公司也不难想到用Transformer架构升级视频生成模型,那为什么还迟迟无法突破呢?这就来到了下一个关键原因:
第二,DALL·E 3中引入的captioner model和GPT的prompts扩写方面的技术积累
实现文生视频,把文字和视频关联是关键问题。OpenAI的解法,是训练一个高度描述性的标题模型。类似这样的格式:
一个 {人或物体} 穿着 {服装类型} 悠闲地在 {什么环境下} 在 {地点} 散步
这套模型,可以让视频的主体保持一致,但每个元素又可以灵活替换,比如:
一个女人穿着蓝色牛仔裤和白色T恤游闲地在漂亮的落日晚霞映照下在南极洲散步。
一只袋鼠穿着绿裙子和遮阳帽游闲地在冬日暴风雪下在印度孟买散步。
这样的实现方式,不仅生成的内容更有保证,想象力也是无限的。
相对的,我们对prompt的掌握,也无需像Midjourney那么复杂,自然语言就可以完全胜任。因此对我们普通人而言,无需再费劲掌握晦涩的prompt魔法单词,用模式化的自然语言描述视频,才是要提前思考和学习的技能。
当然,对OpenAI来讲,还有另外的先发优势,就是
第三,足够大规模的训练量
类似3D一致性、长距离连贯性和对象持久化等效果的实现原理,文中并没有多说,但有一点是肯定的,就是需要足够大的训练量。
这也是LLM最神奇的地方,量变带来质变,在Sora上得到了极致体现,可能就连OpenAI自己也不清楚为什么,只能归因于纯粹的规模效应。
但也是因为无法预测,Sora视频同样会带来“幻觉”,想想看,一下子凭空窜出很多只狼(
https://openai.com/sora
的示例),是不是和ChatGPT聊天凭空编故事是一样的?
同理,仅仅几个月时间,幻觉问题就得到了很大缓解,相信同样的问题,也难不倒世界上这么多聪明人。
总结下,对我们普通人,可以用下面的姿势来迎接Sora的到来:
只要通过红军测试和专家审核,Sora在2-3个月内就能被我们所用,这一点是完全可预见的;
但受限于算力,第一版交给我们的Sora,很可能时长、视频效果、文字识别准确性,还远不及预期;
提前准备好对自然语言Prompt撰写技巧的学习,绝对没错;
开始准备囤一批自己的私有短视频库吧,用类似RAG的原理训练短视频模型,解决视频生成幻觉问题,也许是视频时代提前要考虑的。
我读了几篇很标题党的文章,发现讨论都集中在视频长度、清晰度、多镜头一致性、物理真实性等方向上。Sora放出的大量prompt和Demo,确实让人大开眼界,似乎在未来,任何人都可以仅凭几句话就创作一部影视剧,你在线上的所见所闻是真实还是虚拟几乎从考量,细思极恐,却又让人期待万分。
当天我也在AI群里贡献了自己的观点:
不过这些表象信息,我能想到的和大家也没什么区别——当下技术不成熟,但未来可期。
而真正让我好奇的,反而是藏在它背后的一系列问题:
为什么是Sora?它和Pika、Runway到底有什么区别?凭什么它有60秒别人只能3秒?为什么它能做到别人无法企及的各种特性?这项技术什么时候可以成熟到能开放出来使用?面对这样的新趋势,我们可以提前准备些什么?
带着这些疑问,我用一天时间,仔细研究了Sora背后的技术说明书:
https://openai.com/research/video-generation-models-as-world-simulators
完后意犹未尽,又延展阅读了末尾3篇我认为比较关键的论文原文:
ViViT: A Video Vision Transformer
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Scalable Diffusion Models with Transformers
了解了它背后的底层原理,才稍微对上面的问题有了些答案。在这里也分享给能看到这篇文章的你。
我认为,之所以Sora表现的如此强大,背后有3点关键原因:
第一,使用了Transformer架构的Diffusion扩散模型
本质上Sora和Pika、Runway采用的底层模型是类似的,都是Diffusion扩散模型。不同之处在于,Sora把其中的实现逻辑:U-Net架构,替换成了Transformer架构。
基于Transformer的实现,依赖视觉数据向量化。Sora用visual patches代表被压缩后的视频向量进行训练,就像用tokens代表被向量后的文字一样。这个patches同时带有时间和空间信息,还可以自由排列,灵活度极高,这也是为什么Sora能不限分辨率、持续时间和视频尺寸进行训练。而之所以Sora把Diffusion噪点还原的如此真实,背后依赖的就是transformers的扩展效果。
《Scalable diffusion models with transformers》详细解释了这背后的编解码原理:通过增加transformer模型的深度、宽度和输入patches的数量,可以显著提高视觉保真度。而在《ViViT: A Video Vision Transformer》这篇论文里,更加详细解释了transformer架构如何应用在视频领域:先从空间上对单帧视频进行Embed,再从时间上把多帧进行再编码,完成时间套空间的双层嵌套,再把这些时间、空间的位置信息放到MLP Head进行分类存储,很像是TCP/IP协议的编解码传输原理。
总结下来的结论就是:
只要算力足够,理论上,Sora生成视频的长度可以无限长,图像效果可以无限接近真实。对普通人来说,用上Sora生成长视频确实只是时间问题,而这个时间则依赖硬件算力是否能跟上,所以,无脑入NV的坑吧~
此外,上述论文早在21年就已经完成,Runway这样的公司也不难想到用Transformer架构升级视频生成模型,那为什么还迟迟无法突破呢?这就来到了下一个关键原因:
第二,DALL·E 3中引入的captioner model和GPT的prompts扩写方面的技术积累
实现文生视频,把文字和视频关联是关键问题。OpenAI的解法,是训练一个高度描述性的标题模型。类似这样的格式:
一个 {人或物体} 穿着 {服装类型} 悠闲地在 {什么环境下} 在 {地点} 散步
这套模型,可以让视频的主体保持一致,但每个元素又可以灵活替换,比如:
一个女人穿着蓝色牛仔裤和白色T恤游闲地在漂亮的落日晚霞映照下在南极洲散步。
一只袋鼠穿着绿裙子和遮阳帽游闲地在冬日暴风雪下在印度孟买散步。
这样的实现方式,不仅生成的内容更有保证,想象力也是无限的。
相对的,我们对prompt的掌握,也无需像Midjourney那么复杂,自然语言就可以完全胜任。因此对我们普通人而言,无需再费劲掌握晦涩的prompt魔法单词,用模式化的自然语言描述视频,才是要提前思考和学习的技能。
当然,对OpenAI来讲,还有另外的先发优势,就是
第三,足够大规模的训练量
类似3D一致性、长距离连贯性和对象持久化等效果的实现原理,文中并没有多说,但有一点是肯定的,就是需要足够大的训练量。
这也是LLM最神奇的地方,量变带来质变,在Sora上得到了极致体现,可能就连OpenAI自己也不清楚为什么,只能归因于纯粹的规模效应。
但也是因为无法预测,Sora视频同样会带来“幻觉”,想想看,一下子凭空窜出很多只狼(
https://openai.com/sora
的示例),是不是和ChatGPT聊天凭空编故事是一样的?
同理,仅仅几个月时间,幻觉问题就得到了很大缓解,相信同样的问题,也难不倒世界上这么多聪明人。
总结下,对我们普通人,可以用下面的姿势来迎接Sora的到来:
只要通过红军测试和专家审核,Sora在2-3个月内就能被我们所用,这一点是完全可预见的;
但受限于算力,第一版交给我们的Sora,很可能时长、视频效果、文字识别准确性,还远不及预期;
提前准备好对自然语言Prompt撰写技巧的学习,绝对没错;
开始准备囤一批自己的私有短视频库吧,用类似RAG的原理训练短视频模型,解决视频生成幻觉问题,也许是视频时代提前要考虑的。
版权声明
本文收集整理自网络,如有侵权,请联系删除。
上一篇:用心用力做好“数字帮扶” 下一篇:孙正义,“翻身”了