OpenAI Sora: a technical report

来源: voiceofme 2024-02-19 19:39:33 [] [博客] [旧帖] [给我悄悄话] 本文已被阅读: 次 (4578 bytes)
本文内容已被 [ voiceofme ] 在 2024-02-19 20:38:56 编辑过。如有问题,请报告版主或论坛管理删除.

 

上周openAI突然公布了Sora, 通过一段短的文字,Sora可以生成一段最长60秒的视频 (https://openai.com/sora  ),现在该系统还不能开放给用户去用任何一段话去产生自己的视频,但从发布的已产生的视频来看是非常逼真震撼的。 我对大规模语言模型text-to-text比较了解,但对视频生成(text-to-video)不太了解。读了openAI的Sora 技术报告后,以下是我的初步理解。 

训练数据是(video,cation description)对. 视频表述(caption description) 是用video-to-text 模型来产生,比如 用openAI 自己的 Dalle-3 模型。 

其中一个关键点是,要把原始视频 (video) 压缩成低维度的时空数据,就像大规模语言模型一样,用token来表示某一时刻的语言信号,一段话实际上就是一段tokens (a list of tokens), Sora 用patch来表示某一时刻压缩了的视觉信号, 每个视频就成 a list of patches。这里需要有两个模型,一个模型把视频压缩成一段patches的压缩模型,另一个模型反过来把一段patches变成像素视频的解码模型。 

有了一段patches后, 训练数据就成了(a list of patches, caption description). 这时候,就完全可以套用训练大规模语言模型的方法来训练生成模型,和语言模型一样,transformer 是基本的构造单元。 

另一个关键是, 用户产生的text prompt都不长,可能就一两个句子,Sora 用chatgpt 的世界知识先把短的text 变成长的视频表述 (caption descripton). 这样的扩充完全依赖于chatgpt的对世界的理解,如果用完全的物理世界知识,从prompt生成视频描述的结构就更符合现实世界,相反就会牛头不对马嘴。所以这么看来,产生视频的能力的关键还是chatgpt对世界的理解。 当然这里假设,通过(a list of patches, caption description)训练的视频产生模型,以及视频压缩和解码模型可以很好的工作。

现在Sora生成的视频中还没有音频信号。 我认为,用同样的方法完全可以训练出一个音乐生成模型来做text-to-music, 也许text-to-music 比 text-to-video 容易些。

https://openai.com/research/video-generation-models-as-world-simulators 

 

所有跟帖: 

我的逻辑告诉我:AI 永远不可能超越人类。。。 -Penuium- 给 Penuium 发送悄悄话 (0 bytes) () 02/19/2024 postreply 19:48:16

never say never. 以前还有人说下围棋机器永远不可能打败人类呢 -cnnbull02- 给 cnnbull02 发送悄悄话 (0 bytes) () 02/19/2024 postreply 19:52:01

我这个帖子是技术帖, 不是意见帖。 -voiceofme- 给 voiceofme 发送悄悄话 voiceofme 的博客首页 (0 bytes) () 02/19/2024 postreply 20:06:57

因为 AI Sora 出现,铺天盖地的人类恐慌,故出此言。。。 -Penuium- 给 Penuium 发送悄悄话 (0 bytes) () 02/19/2024 postreply 20:30:55

这个视频AI会造成大批动画片制作人员的失业,如果真的那么好 -年轮- 给 年轮 发送悄悄话 (0 bytes) () 02/19/2024 postreply 21:13:46

不过,现在这视频AI制作还没免费公开使用,怀疑会对动画片公司收取高额费用 -年轮- 给 年轮 发送悄悄话 (34 bytes) () 02/19/2024 postreply 21:17:00

这个Sora除了博眼球,主要是对生态的警告 -ahhhh- 给 ahhhh 发送悄悄话 (656 bytes) () 02/19/2024 postreply 21:58:44

文本模型怎么可能同时产生视频? 自动驾驶不用generative AI吧? -大洋bridge- 给 大洋bridge 发送悄悄话 大洋bridge 的博客首页 (0 bytes) () 02/19/2024 postreply 22:44:03

问题是video的patch是怎么来的? -京男- 给 京男 发送悄悄话 京男 的博客首页 (405 bytes) () 02/19/2024 postreply 23:28:10

好观点!但是技术的发展还会继续。 -thore- 给 thore 发送悄悄话 (0 bytes) () 02/20/2024 postreply 03:28:18

潘多拉魔盒的开启。。。颤抖吧,人们。。。 -不能再沉默- 给 不能再沉默 发送悄悄话 (346 bytes) () 02/19/2024 postreply 23:30:14

请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭/移除任何Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”