当地时间周一,OpenAI宣布正式向用户开放AI视频生成模型Sora,此时距离OpenAI首次公开展示Sora已过去大约10个月。据介绍,Sora将于当天晚些时候向美国及其他市场的ChatGPT付费用户开放Sora Turbo版本,这是一个生成速度更快的版本。
“Sora为模型理解和模拟现实世界提供了一个基础,我们相信这个能力将是实现AGI(通用人工智能)路上的一个重要里程碑。”OpenAI表示。有用户则在社交媒体上表示,Sora的服务器已经太过繁忙,出现无法注册的情况。
此次Sora新增了一些功能,让用户有更多工具来控制视频。不过,此次公开给付费用户使用的Sora Turbo版本生成时长最多20秒,而非Sora首次公开展示时的1分钟。记者了解到,视频时长较短还是视频模型面临的一个难点,其背后与视频延续性能力不足有关。
Sora新增功能
此次Sora展示了一些新功能,包括用户可使用Remix工具可以替换、删除或重新设计视频中的元素。此外,用户还可以找到最佳的帧并在此基础上扩展成一个场景,还可以在时间轴上编辑视频的独特序列、使用Loop工具剪辑并要求Sora生成无缝衔接的重复视频、将两个视频合并为一个无缝衔接的视频、创建独特风格。
这些新功能让Sora在用户手中变得更加可控。据OpenAI展示的案例,用户可以要求视频中的门打开、将图书馆替换成宇宙飞船;将一个飘雪的视频和一个花朵降落的视频合并在一起,就会出现花朵与雪花同时降落、最后变成只有花朵降落的一段视频,过渡自然;将花朵开放闭合的视频重复,花朵将会持续重复开放闭合的动作,将翻滚海浪的视频重复,则会出现一个不断涌动的海浪,这些重复的视频不会出现视频间机械拼接的迹象;将大象和犀牛行走的画面换个风格,则能变成黑白风格,或者变成纸工艺大象和犀牛行走的画面,或者更换他们所处的背景。
OpenAI表示,Sora Turbo还是一个早期版本,它可以通过输入文本、图像和视频转化为视频输出,视频分辨率可达1080p,最长生成时长是20秒。技术上,Sora是一个Diffusion(扩散)模型,被赋予了许多帧的预见能力,OpenAI表示,现在已经解决了一个具有挑战性的问题,即当某个主题暂时消失在画面中时,视频主题依然不变。
Sora与GPT模型类似,也采用了Transformer架构。此外,Sora还使用了DALL·E 3的重现技术,该技术能为视觉训练数据生成高度描述性的词,使模型能更贴合用户的文字指令。OpenAI表示,当Sora基于一个静止图像生成视频时,能精确地将图像内容动画化,并关注里面的小细节,也能获取现有的视频并填充视频中缺失的帧。
“正如我们在2月的技术报告中描述的,Sora从大语言模型中获得灵感,这些模型通过在互联网规模的数据基础上训练来获得能力。大语言模型的成功一定程度上得益于用token(词元)统一了各种数据形式,在Sora中,我们也考虑了视觉生成模型如何继承以上优点,类似于大语言模型预测下一个token,Sora能生成visual patches(视觉补丁)。我们先将视频压缩到一个较低维的空间,将其分解为时空补丁,再将视频转化为补丁。”就技术原理,OpenAI解释。
OpenAI还介绍了Sora训练的数据来源。来源包括公开可用的数据,主要来自机器学习数据集和通过网络爬虫技术收集的数据,此外,OpenAI还与Shutterstock$Pond5等厂商合作以获取非公开数据,并用到了来自AI训练者、红队测试成员和员工的反馈数据。
当地时间周一晚些时候,Sora Turbo版本已开放给付费用户使用。目前已有OpenAI员工在社交媒体上展示了自己创作的视频,例如生成古人骑马打战、古代黑白街景的20秒视频,这些画面看起来有足够的细腻度,也有特写、中景和远景的镜头切换,不过,仍有一些不合理之处。
以古人骑马打战的视频为例,一开始画面还比较合理,人物身着古代服饰并举着剑,马匹奔跑前进,不过,到第11秒时突然有一个人无缘由地从马上摔下,画面上还出现了一个人骑马往另一个方向走。
艺术家Boris Eldagsen也在社交媒体上展示了他此前测试Sora时制作的视频。视频中梳着油头的人物一边跳舞一边用量尺丈量东西,镜头语言丰富,量尺则出现了各种姿态,有时会长在人物的身上,该艺术家该视频有“对商业术语的卡夫卡式解构”。
也有用户在社交平台上分享了他如何使用Sora将两个视频融合在一起的功能。该用户用了一个俯拍城堡的视频和一个人物在林间奔跑的视频,融合后,可以看到镜头下降到一条林间小路上,远处看得到城堡,近处看得到人物在奔跑,过渡真实,不足之处则在于人物的身高一开始与树木几乎齐平,然后迅速下降,有坠落的感觉。
Sora与其他模型差距多大?
推出这些方便用户编辑的工具背后,OpenAI表示,今年2月以来,OpenAI就与来自60多个国家的数百名视觉艺术家、设计师和电影制作人合作,以便获得关于如何改进视频、帮助创意行业专业人士创作的反馈。不过,记者留意到,此前Sora展示的视频出现了对物理规律的违背,例如酒杯摔下并不会碎,而此次Sora更新并未专门谈及在遵循物理规律方面的改进。
时长上看,相比今年2月Sora首次公开展示时的1分钟生成视频时长,此次公开给付费用户使用的Sora Turbo版本可生成的最长时长则是20秒。能使用Sora Turbo的用户是ChatGPT Plus订阅用户和ChatGPT Pro订阅用户,其中ChatGPT Plus订阅用户可以每月生成50个低分辨率视频,单个视频时长最长5秒,只有ChatGPT Pro订阅用户才能无限制生成高分辨率视频,时长最长20秒。而ChatGPT Pro的订阅费颇高,达到每月200美元。
此次Sora Turbo没有开放很长的生成时长,且收费较高,可能是算力成本的因素。一名视频生成业内人士告诉记者,Sora此前公开展示后之所以没有很快开放公众使用,一个可能原因就是推理成本太高,视频生成模型不能跟文本模型一样公开给用户免费使用,同时,视频生成模型训练成本也比文本模型高数倍以上,商业模式还待完全打通。
此外,记者了解到,视频生成模型要生成效果较好、时长较长的视频,技术上也存在卡点。“将视频生成时长做长是一个纯算力和数据问题,当时长增加一倍时,算力呈现平方级上升,所以将时长做太长并不划算。如果不考虑算力原因,视频时长可以做得很长,但视频效果退化会越来越严重,业界主流的模型时长都是五六秒。”另有视频大模型技术人员告诉记者。
Sora今年2月公开展示Sora后,在业界引起了视频大模型热潮。从Sora的竞争产品上看,据12月初腾讯混元团队展示的一张文生视频模型效果评估表,包括腾讯混元视频生成、Luma1.6、GEN-3 alpha和2个国内模型在内,这5个模型的效果总体评分都在24%~42%之间,得分都不算高。Sora与业界已有的其他产品之间,差距有多大?
“我看了一些Sora的视频案例,效果比较好,但貌似与其他视频模型之间的距离也没有大到代际差距。”新浪微博新技术研发负责人张俊林告诉记者,目前视频模型的难点还是长视频的一致性,就是时间长了之后如何让角色和背景表现一致。据不完全统计,目前已发布或已在内测的国内外视频生产产品已有Sora、Gen3、Luma、Pika、即梦、可灵、混元、通义万相、video-1、清影、PixVerse、Vidu等近20个。
从技术路线上看,多名视频模型业内人士都告诉记者,包括Sora在内,业内的视频生成路径基本收敛到Tranformer+Diffusion,表现为这两种架构融合的DiT架构或类DiT架构。有业内人士认为,沿着这条路径走下去,要做出效果更好的模型需要比拼资金实力,除此之外,算法本身不算成熟,也有继续创新的空间。
(文章来源:第一财经)