投下文生视频“炸弹”，Sora是鲇鱼还是鲨鱼

日期：03-04

OpenAI首个AI文生视频模型“Sora”。图/IC

AI再度带给人们一次震撼，不过，去年的主角是ChatGPT，今年则换成了Sora。

它们均出自OpenAI（美国开放人工智能研究中心），又都拥有足以“以假乱真”的先进技术。不同的是，去年AI学会人类语言，而今年则掌握了人类看到的画面。

2023年被称为“人工智能元年”，在大语言模型ChatGPT的助推之下，2023年掀起了生成式人工智能的热潮，活跃的开源环境和多模态模型一同推动了人工智能研究的进步。“如果说2023年是人们意识到人工智能的一年，那么2024年将是人工智能整合的一年。”美国西北大学计算机科学教授克里斯蒂安·哈蒙德（KristianHammond）对新京报记者指出，人们将想办法把这些新奇的玩具运用到生活中。

Sora“懂物理”？

2月16日早上，王祚的手机里收到了一条公众号推送，文章标题直白且不加掩饰——“现实，不存在了。”

这句看似从科幻小说《三体》中借鉴来的标题吸引了王祚，出于好奇，他打开了这篇推文。文章中讲述的是OpenAI推出的视频生成模型Sora，它使用Transformer架构，可根据文本指令创建现实且富有想象力的场景，生成多种风格、不同画幅、最长60秒的高清视频。

OpenAI官网首页上，一个身着皮衣、打扮时髦的女郎，走在东京夜晚的街头。画面或许不足为奇，一旁的提示词则格外醒目：这段视频由AI生成。

继推出大语言模型ChatGPT后，OpenAI又进军了视频生成领域，虽然发布的视频只是预览版本，但其视觉效果已然令人咋舌。王祚是一名数字媒体艺术专业的硕士研究生，Sora的出现很快在王祚的同学和老师间引发了讨论，从视觉效果到背后技术，以及人工智能可能对数字媒体专业产生的影响。

还在研发中的Sora也并非完美。王祚称，虽然OpenAI发布的是具有代表性、较为完美的样片，但他也看到了其他博主在获得Sora使用权限后生成的一些视频，其中个别逻辑有明显差错，例如做出吹蜡烛动作后，火苗并没有随之熄灭，玻璃杯接触地板后也没有应声摔碎。

Sora之前，文生视频领域的创业公司主要包括Pika、Runway等。如果将生成“东京女郎”的提示词同样输入Pika文生视频模型和Runway旗下的Gen-2video文生视频模型，就能发现Sora对它们的“降维打击”——不仅生成视频的质量更好，而且前两个大模型生成的视频只有数秒钟，Sora则可以做到1分钟。

差距不仅如此。此前AI生成的视频都是单镜头“一镜到底”，一旦镜头切换，角色可能就会发生变化。同时，其人物形象稳定性同样存在问题，随着时间的推移，容易发生变化，这也是旧有AI视频技术的缺陷。

Sora修复了这一问题。OpenAI一则描述“太空人在盐漠里的电影预告片”中，Sora创造性地出现了多个镜头的切分，而不同角度的镜头，视频主角“太空人”可以看出是同一人。

为何Sora能够在视频生成的质量上明显领先同业产品？简单来说，Sora融合了文生文视频的Transformer架构以及文生图的DALL·E系统，将二者结合后，“通过让模型能够预见多帧内容，团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。”

而更为通俗的说法是，Sora可能通过学习“理解了物理世界”。

英伟达高级科学家范麟熙认为，Sora是一个数据驱动的物理引擎，“它是对许多世界的模拟，无论是真实的，还是虚构的。该模拟器通过去噪和梯度学习方式，学习了复杂的渲染、直观的物理、长期推理和语义理解。”

OpenAI介绍，Sora能够生成包含多个角色、特定运动类型，精确主题以及背景细节的复杂场景，它不仅了解用户在文本提示中的要求，还能理解所述内容在物理世界中的存在方式，“相信这一能力将是实现通用人工智能的重要里程碑。”

不过，也有不少业界人士并不认同Sora“懂物理”。Meta首席科学家杨立昆表示，仅根据文字提示生成逼真的视频，并不代表模型理解了物理世界。

OpenAI也承认尚不完美，称目前的模型仍存在弱点，Sora生成视频中可能包含不合逻辑的图像，混淆左右等空间细节，难以准确模拟复杂场景的物理原理和因果关系实例，但随着算力的增加，视频生成功能会变得更加完善。

虽然观点各异，但绝大多数人认可一点：仅就展现出的生成视频的效果来看，Sora确实带来了如同去年ChatGPT一样的冲击，让文生视频大模型技术发展前进了一大步。

自带讲故事天赋，视频产业或生变

虽然Sora生成的视频令外界印象深刻，但在项目研究人员眼中，它最令人吃惊的是那些并没有被训练过的能力。《连线》杂志指出，Sora不仅可以大量制作满足文本提示要求的视频，它还有一定讲故事的天赋。

“Sora通过镜头的角度和转换镜头的时机创造了一种叙事推力。”Sora项目研究人员比尔·皮布尔斯说道，实际上视频中出现了多个镜头变化，这些并非拼接到一起，而是由模型一次性生成，“我们没有告诉它要这么做，它只是自动做到了。”

Sora出现后，很多人的第一反应是，视频相关产业将可能遭受巨大冲击。Sora发布当天，顶流网红“野兽先生”在OpenAI首席执行官山姆·奥特曼社交账号下留言：“求求你了山姆，不要让我没有工作。”

特斯拉CEO马斯克则在社交平台上发布短评“GG世界”。（GG是网络游戏的用语之一，原指游戏结束时玩家互相致意，后引申为“游戏结束”）。

Sora的惊艳表现频频出圈。在Sora生成的一个“毛茸茸小怪物”视频中，小怪物的毛发纹理极其自然。而此前，移动中的毛发纹理效果往往会耗费动画公司极大精力，如皮克斯的《怪兽公司》，技术团队为毛发纹理耗费了几个月的时间，而Sora仅依靠AI就生成出来，这显然是对电影特效工业的一次“弯道超车”。

360公司董事长周鸿祎表示，一旦AI能够接上摄像头，观看并理解世界上所有的电影，它对世界的理解能力将远远超过仅仅通过文字学习所能达到的水平。在这种情况下，实现通用人工智能不再是遥不可及的梦想。周鸿祎甚至预测，这一天可能在两到三年内就会到来，而不是十年或二十年。

美国旧金山早期投资人ZakKukoff预测，5年内，一个不到5人的团队将可能用文生视频模型制作出一部票房收入超过5000万美元的电影。

DCCI互联网研究院院长刘兴亮告诉新京报记者，Sora模型的发布标志着AI技术在内容创作领域的一个新纪元，“通过简短的文本提示或一张静态图片，Sora能够生成持续一分钟左右的1080P高清视频，涵盖多个角色、不同类型的动作和背景细节等，几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具，使他们能够以更低的成本和更快的速度将创意变为现实，而且为观众带来了更丰富和多样化的视觉体验。技术创新的这一巨大飞跃，预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”

Sora的出现也让行业内为之一振。“Sora的推出标志着人工智能行业向前迈出了一大步。”麦格里银行美国人工智能和软件研究主管弗雷德·哈弗迈耶说道。

新京报记者采访多位影视行业从业者了解到，影视圈对于Sora的到来并非都持悲观态度。一位从业者表示，Sora目前只能生成局部细节的视频，无法在宏观上把控整体内容，对于影视从业者而言，这类AI可以成为很好的工具，而不一定会取代人。

人工智能起源（20世纪50年代）

1950年：克劳德·香农提出“计算机能够和人类进行国际象棋对弈”

1950年：艾伦·图灵提出“图灵测试”，机器产生智能这一想法开始进入人们视野

1956年：达特茅斯会议将人工智能定义为计算机科学的研究领域，标志人工智能学科诞生

1957年：弗兰克·罗森布拉特发明“感知机”的神经网络模型，奠定神经网络基础

人工智能第一次浪潮（20世纪60年代）

1966年：约瑟夫·维森鲍姆发表论文，研究人类与机器之间自然语言通信的可能性

1968年：爱德华·费根鲍姆提出首个专家系统DENRAL，并初步定义知识库，孕育第二次人工智能浪潮

人工智能第二次浪潮（20世纪70年代末、80年代）

1979年：名为BKG9.8的计算机程序在蒙特卡洛世界西洋双陆棋锦标赛中夺冠

1982年：大卫·马尔提出视觉计算理论，以及首个较为完善的视觉系统框架

1988年：朱迪亚·珀尔提出概率方法和贝叶斯网络，为后来的因果推断奠定基础

人工智能平稳发展期（20世纪90年代左右）

1997年：IBM深蓝战胜国际象棋冠军卡斯帕罗夫，基于概率推论的新思路在AI领域得到广泛应用

2001年：约翰·拉夫尔提首次提出条件性随机场模型，用于文本的分割和标注，在许多自然语言处理任务中表现出色

2003年：戴维·布雷、吴恩达、迈克尔·乔丹提出一种非监督机器学习技术LDA，可用来识别大规模文档集成或语料库中潜藏的主题信息

人工智能第三次浪潮（2006年后）

2006年：杰弗里·辛顿等人提出深度学习，这是机器学习最重要的一个分支

2011年：IBM的沃森人工智能系统在智力竞赛《危险边缘》中战胜人类，获得冠军

2014年：伊恩·古德费洛等人提出生成式对抗网络的非监督学习方法，通过让两个神经网络相互博弈的方式进行学习

2016年：谷歌旗下DeepMind开发的AlphaGo战胜围棋世界冠军李世石

2022年：ChatGPT问世，通过深度学习和大规模数据训练，ChatGPT能理解复杂的人类语言，并生成具有连贯性和创造性的回应，人工智能在自然语言处理领域取得一大里程碑，开启人工智能新纪元

新京报记者罗亦丹栾若曦刘婧瑜韦英姿编辑王进雨校对杨许丽

责任编辑：刘光博