刷屏科技圈的“视频生成”,到底有多颠覆?
2 月 16 日凌晨,OpenAI 在 AI 生成视频领域扔出一枚“王炸”,发布了首个文生视频大模型 Sora。这一模型可以根据提示词生成长达一分钟的高清视频。
在 OpenAI 官网分享的演示视频中,Sora 可以直接输出有多个角色、多种场景和运镜的画面。比如这个好莱坞大片质感的电影预告片:
这对比一年前 AI 生成的视频,两者简直是天差地别,就长度方面就“碾压”了行业目前大概只有平均“4s”的视频生成长度。
不少网友看完后,直呼:这不得整个行业消亡,要失业了!
也有人有个大胆的想法,但是老狐告诉大家,不要有这个想法,这个功能实现不了!因为 OpenAI 在文档里强调了生成内容的安全性。
今天就跟着老狐一起来看看 Sora 优势是什么?还存在什么不足?怎么才能用上它?
01 Sora 优势是什么?
在 AI 行业,根据文本自动生成视频,不算新鲜事。
但是,Sora 的问世,之所以被称为“王炸”,主要实现了以下几点突破:
1. 生成高质量的长视频内容
正如前文所提到的,Sora 能够生成长达 1 分钟的超长视频,相比之下,Runway-gen2 的 18 秒和 Pika 的 3 秒,真的是按在地上摩擦。
比如上面这段生成的视频,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。除了腿部切换不自然,几乎可以以假乱真。这 1 分钟一镜到底,可以说这表现力比有些演员都强。
再说到 Sora 创作的视频质量,无论是高清度还是还原度,都是可圈可点的。比如下面这个视频中,行驶中的列车窗上的影像显示十分细节,此外偶遇遮挡,车内人物倒影之后也能短暂出现。
又比如人物的眼睛,神情动态之难,往往成为 AI 创作的壁垒。
但就上面 Sora 生成的视频来看,可以说细节满满,几乎看不出什么破绽。这样的视频,哪怕是顶级动画制作公司可能都需要数日时间,而 Sora 只需要几分钟搞定。
2. 理解长文本能力
Sora 不仅完美继承 DALL·E 3 的画质和遵循指令能力,还能根据详细的文本指令生成具有详尽细节的视频内容。
要知道以往的 AI 视频生成,只能一板一眼地照本宣科翻译提供的文案,而 Sora 已经开始理解文案,并基于文案自己进行发挥和拓展。
如上方 Sora 以“色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界”为主题的视频中, Sora 通过其摄影角度和拍摄时机,成功地推进了故事的发展。视频中实际上发生了多次镜头转换,这些没有特别指令它这么做,它却能自动完成。
3. 创新视频生成模式
以往的 AI 生成视频都是文本生成视频,但 Sora 还能接受其他类型的输入提示。比如,先给 Sora 一个 Dall E 生成的小狗照片,它就能让小狗动起来。
此外,Sora 还能在时间维度上实现向前或向后的无限扩展,也就是说给 Sora 一段视频,它可以自动生成前面或后面的视频。
比如,上面这三个视频,给了它一个结尾让 Sora 生成开头,可以看到每个开头都不一样,但是结尾最终都是一样的。
不知道多少小伙伴和老狐一样曾经幻想过一键切换视频背景,这不 Sora 就帮忙实现了。它可以参考原视频,把视频中的一些画面生成出你想要的内容,比如说是更换环境啊,像森林、水下,甚至整个场景主题。
令人眼前一亮的是,Sora 的视频拼接功能,你可以把多个视频给 Sora 参考,让它将多个毫无关系的画面组合到一起。可以说衔接还是比较丝滑的。
4. 始终保持 3D 一致性
用过其他视频生成工具的朋友肯定知道,我们为了尽量让视频画面不分,就要减少镜头的移动和旋转。
不过使用 Sora 我们可以不用担心这个问题,因为它生成的人物和场景元素在三维空间中的位置关系能够保持一致的运动,都将持续保持一致性。此外,人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。
5. 与世界互动,画面有物理交互反馈
老狐觉得这一点或许是 Sora 最可怕的功能。现今的 Sora 能够模拟一些对世界状态有简单影响的行为。例如,画家在画布上留下新的笔触,这些笔触会随时间推移而持续存在。
综上看来,Sora 着实是对之前的 AI 视频生成系统的前辈们来了一波降维打击。
02 Sora 目前的不足
当然也并不是说 Sora 十分完美,目前看来还存在诸多不足。
一是该模型混淆提示的空间细节
,并且难以准确的描述复杂场景中的物理现象。
比如这个视频老人吹蜡烛前后火苗居然没有丝毫的变化,不合常理。
二是无法理解一个事例中包含的因果关系
。
比如酒杯摔碎,但是液体的流动和玻璃的破裂关系,不合常理。
三是 Sora 难以精确的描述时间发生的事件
。
例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。
03 怎么样才能用上它?
那么,大家最关心的问题来了,我们普通大众现在能使用 Sora 么?
答案是:不能。
目前 Sora 还未对公众开放,OpenAl 表示目前没有计划向公众发布它,正与与第三方安全测试人员共享该模型。
。
如果你实在想尝试一下 Sora,OpenAI CEO 奥特曼在 X(以前的推特)也发出了一条帮忙生成视频的帖子,只需要去下方复指示词就行。
04 大佬们如何看 Sora?
最后再来看看各位技术大牛和内容行业从业者如何评价 Sora?
360 集团创始人、董事长周鸿祎认为
Sora 意味着AGI实现将从 10 年缩短到 1 年!此外周鸿祎还表示,Sora 对短视频行业有巨大的颠覆,特别是创作力工具。
英伟达人工智能研究院 Jim Fan 认为我们不能忽略 Sora 背后,“世界模型”更进一步,AI 已经可以读懂物理规律。
马斯克评 OpenAI 视频模型:“AI 增强的人类将在未来几年里创造出最好的作品。”
最后,对老狐这种内容创作者来说,仅通过输入文本,就能生成高质量的视频,这不仅可以大幅减少制作时间,还能激发更多的创意灵感,已经在期待能够亲自体验 Sora 带来的创新魅力了。
对于 OpenAI 发布首个视频生成模型 Sora,你怎么看?欢迎评论区一起互动交流。
参考资料:
量子位、腾讯科技、新智元、X、OpenAI 官网等其他网络平台
在 OpenAI 官网分享的演示视频中,Sora 可以直接输出有多个角色、多种场景和运镜的画面。比如这个好莱坞大片质感的电影预告片:
这对比一年前 AI 生成的视频,两者简直是天差地别,就长度方面就“碾压”了行业目前大概只有平均“4s”的视频生成长度。
不少网友看完后,直呼:这不得整个行业消亡,要失业了!
也有人有个大胆的想法,但是老狐告诉大家,不要有这个想法,这个功能实现不了!因为 OpenAI 在文档里强调了生成内容的安全性。
今天就跟着老狐一起来看看 Sora 优势是什么?还存在什么不足?怎么才能用上它?
01 Sora 优势是什么?
在 AI 行业,根据文本自动生成视频,不算新鲜事。
但是,Sora 的问世,之所以被称为“王炸”,主要实现了以下几点突破:
1. 生成高质量的长视频内容
正如前文所提到的,Sora 能够生成长达 1 分钟的超长视频,相比之下,Runway-gen2 的 18 秒和 Pika 的 3 秒,真的是按在地上摩擦。
比如上面这段生成的视频,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。除了腿部切换不自然,几乎可以以假乱真。这 1 分钟一镜到底,可以说这表现力比有些演员都强。
再说到 Sora 创作的视频质量,无论是高清度还是还原度,都是可圈可点的。比如下面这个视频中,行驶中的列车窗上的影像显示十分细节,此外偶遇遮挡,车内人物倒影之后也能短暂出现。
又比如人物的眼睛,神情动态之难,往往成为 AI 创作的壁垒。
但就上面 Sora 生成的视频来看,可以说细节满满,几乎看不出什么破绽。这样的视频,哪怕是顶级动画制作公司可能都需要数日时间,而 Sora 只需要几分钟搞定。
2. 理解长文本能力
Sora 不仅完美继承 DALL·E 3 的画质和遵循指令能力,还能根据详细的文本指令生成具有详尽细节的视频内容。
要知道以往的 AI 视频生成,只能一板一眼地照本宣科翻译提供的文案,而 Sora 已经开始理解文案,并基于文案自己进行发挥和拓展。
如上方 Sora 以“色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界”为主题的视频中, Sora 通过其摄影角度和拍摄时机,成功地推进了故事的发展。视频中实际上发生了多次镜头转换,这些没有特别指令它这么做,它却能自动完成。
3. 创新视频生成模式
以往的 AI 生成视频都是文本生成视频,但 Sora 还能接受其他类型的输入提示。比如,先给 Sora 一个 Dall E 生成的小狗照片,它就能让小狗动起来。
此外,Sora 还能在时间维度上实现向前或向后的无限扩展,也就是说给 Sora 一段视频,它可以自动生成前面或后面的视频。
比如,上面这三个视频,给了它一个结尾让 Sora 生成开头,可以看到每个开头都不一样,但是结尾最终都是一样的。
不知道多少小伙伴和老狐一样曾经幻想过一键切换视频背景,这不 Sora 就帮忙实现了。它可以参考原视频,把视频中的一些画面生成出你想要的内容,比如说是更换环境啊,像森林、水下,甚至整个场景主题。
令人眼前一亮的是,Sora 的视频拼接功能,你可以把多个视频给 Sora 参考,让它将多个毫无关系的画面组合到一起。可以说衔接还是比较丝滑的。
4. 始终保持 3D 一致性
用过其他视频生成工具的朋友肯定知道,我们为了尽量让视频画面不分,就要减少镜头的移动和旋转。
不过使用 Sora 我们可以不用担心这个问题,因为它生成的人物和场景元素在三维空间中的位置关系能够保持一致的运动,都将持续保持一致性。此外,人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。
5. 与世界互动,画面有物理交互反馈
老狐觉得这一点或许是 Sora 最可怕的功能。现今的 Sora 能够模拟一些对世界状态有简单影响的行为。例如,画家在画布上留下新的笔触,这些笔触会随时间推移而持续存在。
综上看来,Sora 着实是对之前的 AI 视频生成系统的前辈们来了一波降维打击。
02 Sora 目前的不足
当然也并不是说 Sora 十分完美,目前看来还存在诸多不足。
一是该模型混淆提示的空间细节
,并且难以准确的描述复杂场景中的物理现象。
比如这个视频老人吹蜡烛前后火苗居然没有丝毫的变化,不合常理。
二是无法理解一个事例中包含的因果关系
。
比如酒杯摔碎,但是液体的流动和玻璃的破裂关系,不合常理。
三是 Sora 难以精确的描述时间发生的事件
。
例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。
03 怎么样才能用上它?
那么,大家最关心的问题来了,我们普通大众现在能使用 Sora 么?
答案是:不能。
目前 Sora 还未对公众开放,OpenAl 表示目前没有计划向公众发布它,正与与第三方安全测试人员共享该模型。
。
如果你实在想尝试一下 Sora,OpenAI CEO 奥特曼在 X(以前的推特)也发出了一条帮忙生成视频的帖子,只需要去下方复指示词就行。
04 大佬们如何看 Sora?
最后再来看看各位技术大牛和内容行业从业者如何评价 Sora?
360 集团创始人、董事长周鸿祎认为
Sora 意味着AGI实现将从 10 年缩短到 1 年!此外周鸿祎还表示,Sora 对短视频行业有巨大的颠覆,特别是创作力工具。
英伟达人工智能研究院 Jim Fan 认为我们不能忽略 Sora 背后,“世界模型”更进一步,AI 已经可以读懂物理规律。
马斯克评 OpenAI 视频模型:“AI 增强的人类将在未来几年里创造出最好的作品。”
最后,对老狐这种内容创作者来说,仅通过输入文本,就能生成高质量的视频,这不仅可以大幅减少制作时间,还能激发更多的创意灵感,已经在期待能够亲自体验 Sora 带来的创新魅力了。
对于 OpenAI 发布首个视频生成模型 Sora,你怎么看?欢迎评论区一起互动交流。
参考资料:
量子位、腾讯科技、新智元、X、OpenAI 官网等其他网络平台
版权声明
本文收集整理自网络,如有侵权,请联系删除。