当地时间2月15日,人工智能巨头OpenAI又出大招——“文生视频”模型Sora惊艳亮相。在官网上,OpenAI发布了48条Sora生成的视频,其画面的高质量和高逼真度,在全球引发轰动。Sora可根据文本,创建最长达60秒的视频。有不少分析表示,Sora生成视频的时长和质量前所未见。
Sora到底有多强大?其背后的技术逻辑是什么?对哪些行业影响巨大?澎湃问吧邀请上海数据交易所研究员林梓瀚一起聊聊Sora到底有多强。
林梓瀚,中国信息化百人会研究员,关注人工智能、数据要素、数据跨境流动以及ICT领域的全球立法与技术治理,参与国家、地方多部法规政策的制定,不知名科幻小说创作者。
点击图片即可提问
Sora的技术逻辑是什么
@澎湃网友iegcd:Sora的文生视频是用什么技术实现的呢?
林梓瀚:目前Sora目前还是基于transformer的技术框架,然后融合了chatgpt以及DALL-E的技术框架从而实现文生视频。而更底层的技术,由于sora目前没有公测,有部分人推测,目前Sora之所以能够实现文生视频,就是来源于其Spacetime latent patches的技术概念。
Sora可以根据提示词从数据集里面搜索出与关键词相匹配的Spacetime latent patches,然后根据patches之间的逻辑再继续生成下一个patches,最后通过逻辑数据模型LDM建模以及DiT(Diffusion Transformer)模型,从而在时间轴上生成一个连续的视频。Sora就这样通过一个个连续patches的生成,从而最后构成整个视频场景。
@有温度的阅读者:Sora生成视频,究竟是大模型在模拟物体运动,还是高级的抠图并组合?
林梓瀚:Sora号称是物理世界模拟器,在数字空间中模拟物理世界的各种物理规律,从而实现物理世界各种运动在数字空间的映射。换句话说,Sora模型可以通过生成虚拟视频来模拟现实世界中的各种物理运动和各种情景。Sora生成视频的分辨率是非常高的,而且视频中的基本物理现象也是和现实比较吻合的,不是高级的抠图可以比拟的。不过目前来看,Sora的一些生成视频瑕疵也不小,很多基本的物理现象无法呈现出来,比如玻璃破碎等。不过随着训练,Sora将会进一步迭代。
@铲铲在这里:Sora的素材是哪里来的?会有版权问题吗?
林梓瀚:目前Sora的数据来源大部分都是合成数据,有人推测过,Sora目前极有可能用UE5生成的文本、事情当作合成数据,然后用来进行训练。这其中涉及到版权的问题主要聚焦在几个点:
第一,所合成的数据与数据源的区别,如果投入了自己的智力创造而合成出新的数据,这倒是问题不大,如果和数据源无法区分,这就涉及版权争议了;
第二,所生成的视频,是否有版权保护,按照美国现行法律来说,美国版权局认为人工智能自动生成的作品是不受版权保护的;
第三,生成的视频如果涉及到某些影视作品片段或者特定风格,是否会侵犯版权,这大概率是肯定的,而且不仅侵犯版权,可能还会侵犯特定人物的肖像权,以及基于著作权衍生的其他权利等。
而且对于Sora的侵权问题讨论不仅于此,Sora的出现让人们惊呼现实不存在了,如果将Sora运用在deepfake ,谁还能分得出真实与虚假呢,将引发系列问题,包括肖像权的侵犯、名誉权的侵犯、甚至诈骗等。不过,刀剑本身无善恶,关键看使刀剑的人是善是恶了。
@SELINAA:Sora跟Chatgpt相比,哪个技术更加先进一点?
林梓瀚:肯定是Sora哦!Sora虽然也是基于transformer的技术框架,但是它生成的是视频,与Chatgpt生成的文本一比,其生成的维度不知道叠加了多少层,难度也不知道增加了多少倍。
Sora将如何颠覆未来
@JiJiJiJiJi:Sora会颠覆哪些行业?
林梓瀚:Sora是文生视频工具,也就是可以根据用户的描述自动生成描述内容的视频。因此传统的影视、视频行业最先会受到冲击,具体的行业大概有影视行业、广告行业、新闻媒体行业、游戏行业等。以前我们的视频生成需要写脚本、录制、剪辑、配音配乐,耗费大量的时间,而现在Sora直接给你来个一键生成,且生成的内容并不会比传统工艺生成的视频差,很难打得过啊!
@gdcai:Sora对未来AI行业的发展会产生哪些影响?
林梓瀚:人工智能行业其实涵盖的领域挺多的,计算机视觉、自然语言处理以及机器人等都包括在内,Sora目前是属于自然语言处理和计算机视觉等技术的综合性产品工具、文生视频工具,集合了gpt和DALL-E等计算,也属于AIGC的一类。Sora的成功,将会继续引爆人工智能行业在AIGC领域的探索。目前AIGC确实取得了一系列的成果,但是这样的技术路线是否就是人类社会所需的呢,只能有待时间检验了。
@FREA:Sora会给电影行业带来很大的冲击吗?
林梓瀚:会的,可能会颠覆整个电影行业。您想想传统的影视工业,从剧本、化妆、服饰、道具以及拍摄、剪片、配乐、配音,整个周期多长呢,现在只要一瞬间您可以依赖Sora直接生成想要的视频。虽然目前只能生成1分钟左右,但是后续随着技术的发展,生成更长时长的视频也不在话下,这节省了多少人力物力和时间成本呢!
@一家四人行:在人工智能领域,国内追赶上美国的可能性有多大?Sora对工业的影响会有多大?
林梓瀚:人工智能的基础主要是数据、算法以及算力。数据方面其实都好说,数据集、数据治理的能力技术都差不多,最多差的就是中文数据集的量和英文数据集的量,但是这些都好解决。
国内和美国差距大的地方在于算力和算法。在算力方面,计算芯片的差距还是比较大的,CPU芯片的差距国内和美国差得不小,但是更大的差距还是GPU芯片的差距,GPU芯片目前可以说是人工智能时代的算力核心了。至于算法方面的差距,还是不小了。Sora出来之后,中美在人工智能的差距目前确实正在进一步拉大,但是我们也不用灰心,毕竟风物长宜放眼量,下一个时代的技术竞争也只是刚开始。而且美国目前的技术路径在人类社会发展的进程选择上是否正确也是有待思考的。至于说对工业影响有多大,目前对传统的电影工业有着颠覆性的影响。
@向际森:Sora为普通人带来了哪些实现财富自由的机会?
林梓瀚:用好Sora,一个人就是一个影视工厂,一个人就是一整个营销团队,前提是你有丰富的想象力。将你丰富的想象力用在这上面,你将会拥有光怪陆离的世界。说不定未来我们每个人最值钱的就是我们自身的想象力了。