中国版的Sora还需要多久?

日期:04-02

(作者:凯凯)近日,一款名为Kimi的国产大模型在资本市场上引起了广泛关注,成为了AI领域的新星。Kimi,由国内AI创业公司月之暗面科技有限公司(MoonshotAI)开发,凭借其卓越的长文本处理能力和丰富的应用场景,迅速在AI对话助手市场中脱颖而出。

Kimichat是国内AI创业公司月之暗面在2023年10月推出的一款AI长文本处理应用。今年3月,Kimi宣布自己可以处理200万字无损上下文。

2024年一季度结束。在以ChatGPT为起点的AI风潮席卷世界一年后,全球生成式AI应用加速发展,盘点一季度资本市场最“出圈”的AI应用,当属文生视频赛道上的Sora。

2月16日凌晨,开发出ChatGPT的OpenAI团队突然在官网发布了自己的首个文生视频大模型:Sora。

在OpenAI一口气放出的48个示例视频中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

特斯拉CEO马斯克也为此惊叹,他在社交媒体上说到“gghumans”。360创始人周鸿祎则发微博称:sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

相比在2022年Chatgpt发布后中国科技公司都争先在AI文生文赛道上抢占先机不同,截至目前,只有少数国内初创公司“站出来”表示要做文生视频大模型。

3月5日,文生视频创业公司——七火山发布了其结合Sora路线迭代的Etna文生视频模型,并在发布会现场对生成效果进行了展示。公司CTO黄礼强对媒体表示,借鉴Sora技术迭代开发的Etna模型,在性能上有显著提升,“视频时长延长至8-15秒,且每秒帧数高达60帧。“

3月19日,AI芯片初创公司中昊芯英与某上市公司合作伙伴共同发布“文生视频大模型”。研发团队利用一个包含5.8亿个视频片段的数据库,最新研发视频生成模型V-Gen,通过逐步注入细节和运动信息,将静态图像转化为动态视频、

据统计,Chatgpt发布后,中国八个月内就诞生了238个大模型,平均每隔一天就会官宣一个新的大模型。

相比于Chatgpt火爆不到一个月的时间里,阿里、华为、腾讯、京东、字节、360、商汤、科大讯飞等一众大厂纷纷下场,或官宣入场或亮相大模型。

这次sora的亮相后,中国的大厂出现了集体失声。

对开源的等待

面对这份沉默,清华大学新闻学院教授、博士生导师沈阳认为主要是实力差距太大,以及对方没有开源。

OpenAI是一家闭源的机构,即不公开其大模型的架构、硬件平台、训练计算方法和数据集等方面的细节。

沈阳告诉《新浪蜂鸟》,中国大部分AIGC领域的算法主要还是靠美国的一些公司开源。“美国公司开源算法了之后,我们就能拉齐水平,但Sora并不开源,所以领先的部分我们很难在短期内知道,从这个角度上来说,中美之间的技术差距是动态的,例如OpenAI发布新版本差距就拉大了,在发布前,我们又能追的稍微近一点。”

浙江大学计算机博士,人工智能算法专家傅聪持相同观点。

傅聪告诉《新浪蜂鸟》:在算法领域,一些世界顶级学术会议如ICCV(计算机视觉国际大会)会把一些比较领先的技术方案,以论文的形式呈现出来,与此同时,大部分高质量的论文还会直接提供它们的代码实现。

“例如人们普遍认为Sora是基于DIT模型的一个进阶版本,而DIT模型是2023年ICCV会议上面的一篇基础论文。这些公开的技术资料,可以让科研团队在OpenAI把模型开源出来之前,摸索到他们可能的技术路线。”傅聪说道。

永远是刚需的算力

OpenAI成立于2015年,在大模型领域的技术积累和投入已长达近9年,而国内起步仅2年。

在中国马不停蹄追赶过程中,OpenAI还在源源不断地向大模型输送资金、顶尖人才和高质量数据。

Sora公布后,OpenAI的CEO山姆·奥特曼透露,他正在计划筹集7万亿美元重塑全球半导体行业,以支持Sora的发展。

百川智能创始人、CEO王小川在去年的一个大会上提到,他在硅谷调研中了解到,OpenAI正在尝试把1000万块GPU连在一起训练一个大规模的模型。

王小川对此感到十分震惊,“英伟达一年大概生产100万块GPU,训练GPT-4要2.5万块,国内对标GPT-3.5训练需要4000块。要中国拿出1000万块GPU去训练大模型,目前从资源层面还远远达不到”。

“算力确实是实现赶超的一个瓶颈。算力主要决定了科研的试错成本。”傅聪说。

通常在科研领域想到一个新想法,并不是迅速就能落地,而需要大量的尝试,但是如果试错的成本很高的话,追赶速度就会比较慢,“OpenAI确实拥有大量的英伟达提供的高端芯片“傅聪解释到。

如果没有高端芯片,我们只能寄希望于开源公司公布出试错经验。

“像Meta这样的公司,还是在坚持走开源的道路。与此同时,他们会把试错的经验公布出来。在学术圈里我们能看到一个现象,开源的热度在不断提升,意味着资料的公开性和透明化是越来越高的。”

好处显而易见。“我们会省去很多试错的成本,这样的话,即使使用相对来说比较‘低端’的芯片,我们也可以突破一些核心的技术点。”傅聪说道。

我们国内的AIGC大模型,究竟在使用什么芯片?

“关于阿里的通义千问,百度的文心一言,这些商业企业拥有什么类型的芯片,以及它实际搭载在模型上,真正使用的是什么芯片,其实都属于企业的非公开商业机密。”傅聪说道。

但是,从一些已有的公开信息推测出,这些企业使用的可能是A100、A800、A30、V100等芯片。

差距到底有多大?OpenAI的首席执行官奥特曼在接受英国《金融时报》采访时曾透露过,说OpenAI购买了大量的英伟达H100芯片。

“奥特曼所说的H100芯片,对比国内企业在用的A100等芯片,在训练某些大型AI模型时的效率至少高了1个数量级(10倍),”傅聪说道。

视觉形态语言数据的投入缺失

除了芯片所提供的强大算力,对于AIGC语言模型来说,数据的品质直接影响了模型训练的成效。

目前,大模型训练数据主要来自于公开的文档、资料和数据。总体来说,这些初级加工的数据多数为英语,占据主流地位,从数据质量来看,由于国内在数据产业的投入和精细化程度不足,导致了中文语料不仅少且能用得也不多的现状。

对这一现象的原因傅聪认为OpenAI使用的训练数据集中的一部分有重金投入,这部分数据通过人力进行标注,而且标注的精细程度非常高,这是OpenAI长期与ScaleAI这样的专门数据标注公司深度合作、共同迭代的成果。

国内的中文语料库虽然很庞大,但是在这之中,符合大语言模型需求的高质量文本,以及带有针对性标注的文本数量,都是远远不够的。

对于数据的品质,傅聪以国内的文生图的一个经典例子举例,文本输入“驴肉火烧”,生成的是几头驴围坐在一个篝火边。

“文生图领域,除了需要高质量的纯图片数据集以外,还需要特定的文字和图片配对,形成高质量且庞大的数据集去继续训练模型。”傅聪表示。

对于“驴肉火烧”这个概念,它是要把驴当做一个孤立的概念去理解?还是把“驴肉火烧”当做一个整体去理解?这主要是依赖于语言模型的建模能力。如果训练数据里大量都是关于驴的文字、图片和视频,很少出现“驴肉火烧”这个整体。那么,训练出来的模型,就无法理解“驴肉火烧”这个整体概念,更加不能生成相对应的图片。

不过总的来看,傅聪表示“驴肉火烧”其实是一个个例。对于大模型的评估,我们需要在大量的评测级上进行系统的评测,最后得到一个统计性结果。

对于中国应如何构建高质量和庞大的中文数据集来实现与OpenAI媲美的AIGC大模型,傅聪表示可以借鉴OpenAI的模式,让从事大模型开发的团队和数据标注公司进行深度合作。国内其实也有一些专门做数据标注的公司,例如海天瑞声等,但他们以往从事的标注业务方向,与大模型训练数据的需求还有一定距离。

Sora出现以后,视觉形态的数据标注可能又会成为一种新的需求。这些数据标注公司需要和从事相关模型开发的团队或公司深入合作才有可能满足这些需求。

此外,大公司也可以依赖自己的标注团队的人力,迭代完成这些工作。

人才储备不足

人才储备不足是中国企业失声的另一个原因。

在傅聪看来,在AIGC的人才储备方面,国内并不是人才质量不高,其实在很多学术大会上都能看到中国科学家的身影。“主要还是人才在AIGC细分赛道的时间投入不足。“中国的高端学术、工业人才,开始注意并投入到AIGC的各个细分赛道,大部分是从ChatGPT和MidJourney这样的明星公司引起了全世界范围的关注时开始的。从这个时间节点算起,大规模的人才储备到目前为止只有不到两年时间。OpenAI在大模型这个领域投入了近七年的时间,他们比我们多走了很多路,经历了无数次试错才取得了今天的成就。”

“这些路我们是一定要趟过去的,这些成本是省不掉的。”傅聪说。

在未来,不论是企业和高校,傅聪表示相信都会持续加大AIGC相关领域投入,这些投入也可以通过国内相关领域顶级论文的投稿量,以及企业相关岗位的招聘趋势反映出来。

中国版的sora还需要多久?

中国需要多久才能出现与Sora相媲美的文生视频大模型?

沈阳认为如果美国开源了文生视频的大模型,中国做“追随性产品”的难度就不大了,能“很快”出现这样的大模型。

但是如果从0到1的基座大模型要跟OpenAI去PK的话,从短期来看不太现实。“我们在算力方面的瓶颈短期内不太可能弥补。”沈阳表示。

傅聪认为会有一个比较大的浮动区间,在半年到两年之间能够实现。

他表示如果国内的研究人员在stablediffusion技术的基础上,积累一些研究成果和视频数据,是能比较快地从OpenAI的技术报告中找到一些较好的方向,实现加速追赶。

此外,从外界对Sora的技术框架的猜测来看,普遍认为目前Sora的参数规模可能只有几十亿,对比几千甚至上万亿参数规模的超大模型GPT4,Sora的模型规模显然要小得多。而更小的参数规模,就意味着可以通过更小的算力,实现更快速的试错。

如果研究人员的成果积累和对数据的理解,已经达到了DIT的水平,那么可能半年就能追上,反之,可能需要两年,傅聪认为。

对话的最后,两位人工智能即算法专家沈阳和人工智能算法专家傅聪都对Sora的未来表示期待。

从OpenAI目前所公布的信息来看,Sora的野心不只是一个简单的视频生成器,而是“构建通用物理世界模拟器的一条有前景的道路”。

“我们人工智能学界一直有一个野心,就是希望能够构建一个世界模型。世界模型的通俗理解就是,把整个世界的因果建模在一个模型里,理想状态下,我们给这个模型输入世界当下的状态,就可以预测世界未来会怎么发展。”傅聪说到。

通过文生视频走向世界模型,这条道路的探索非常有价值。我们原来认为要生成世界模型,要先搞懂物理规则,根据物理规则来建构世界模型,但现在看来,如果能用语言建构世界模型,意味着真正的实现了维特根斯坦说到的‘语言的边界就是世界的边界’。”

“如果语言能够生成世界模型,意味着未来通过脑机接口,我们只要有一个意念就能生成想要的内容,这条道路走下去,人类会有一个非常大的发展。”沈阳表示。

责任编辑:陈运兰SN210

可可价格半年疯涨两倍殃及巧克力,经销商担忧价格暴涨甚至断货 日本小林制药“问题原料”,恐波及3.3万家企业!