搜索

全球精选|Sora引发“世界模型”争议,AI真的能像人类一样理解世界吗?

分类: 人工智能 阅读: 215 来源: 聚展网 2024-02-29 21:15:02
图片
图片

过去一周,Sora成为了全球瞩目的焦点。

尽管Sora尚未对公众开放,其话题度已经远超ChatGPT,成为大众讨论度最高的关键词,可见视觉冲击往往比文字更令人震撼。

一阵热闹喧嚣过后,理性思考开始回归,Sora的出现对AI的发展到底意味着什么?2024年,以Sora为首的生成式AI,或许将带我们走向更超乎想象的远方。

# 01

Sora不只是一个视频生成器,还是一个“世界模型”?

AI生成视频并不是一件新鲜事。

Runway、Stability AI等公司相继推出文生视频模型,红极一时的Pika也曾惊艳了全世界。从Sora发布的样例视频来看,Sora无论在生成视频的长度还是质量上,都将之前的各种模型远远甩在身后。

重播 分享
观看更多

视频加载失败,请刷新页面再试

刷新
视频详情

SORA、Pika、RunwayML、Stable Video对比

从Sora发布的技术文档来看,其模型的强大之处可简单总结为以下六点:

1、文本到视频生成能力 :Sora能根据用户提供的文本描述,生成长达60s的视频,这些视频保持视觉品质,完整准确还原用户提示语。

2、复杂场景与角色生成能力 :Sora能生成包含多个角色、特定运动类型、主题精确、背景细节复杂的场景;能创造出生动的角色表情与复杂的运镜,使得生成视频具有高度逼真性与叙事效果。

3、语言理解能力 :Sora拥有深入的语言理解能力,能准确解释提示,并生成能表达丰富情感的角色。这使得模型能更好理解用户文本指令,并在生成视频内容中忠实反映指令。

4、多镜头生成能力 :Sora可在单个生成视频中创建多个镜头,保持角色与视觉风格一致性。这种能力对制作电影预告片、动画或其他需多视角展示的内容非常有用。

5、从静态图像生成视频能力 :Sora不仅能从文本生成视频,还能从现有静态图像开始,准确动画化图像内容,或扩展现有视频,填补视频中缺失的帧。

6、物理世界模拟能力 :Sora展示AI在理解真实世界场景并与之互动的能力,能模拟真实物理世界运动,如物体移动与相互作用。

重播 分享
观看更多

视频加载失败,请刷新页面再试

刷新
视频详情

除了在技术报告中透露,Sora能够深刻的理解运动中的物理世界,堪称“世界的模拟器”。OpenAI在发布Sora的博客中也一直强调, Sora不只是一个视频生成器,还是一个“世界模型”。

图片

这是OpenAI首次在发布一个模型时强调这一点。 为什么OpenAI要在发布文生视频模型时反复提出“世界模型”这个概念?

目前最为流行的生成式AI从内容形式上大致可以分为四类:文本生成文本、文本生成音频、文本生成图片、文本生成视频。

图片

清华大学新闻与传播学院元宇宙文化实验室《AIGC发展研究资料》

以ChatGPT为例,这类大语言模型在完成任务时是在模拟创作者的思维过程, 而对创作者思维的模拟,需要遵从思维背后的逻辑和常识。 文本、音频、图片如此,但 视频却不同。

AI如果想要呈现出真实的视觉效果,意味着它需要“理解”真实世界,“理解”物理定律,包括能量守恒定律、热力学定律、力的相互作用定律等等。比如苹果不能突然在空中漂浮,这不符合牛顿的万有引力定律;比如在光线照射下,物体产生的阴影和高光的分布要符合光影规律等;比如物体之间产生碰撞后会破碎或者弹开。

只有准确表示物体之间运动的相互关系和相互作用,才能让人类感觉到“智能”。

重播 分享
观看更多

视频加载失败,请刷新页面再试

刷新
视频详情

Sora的出现让我们看到了多模态模型在模拟物理世界时的巨大潜能,同时也引发了科技圈对于“世界模型”的众多争议。

#02

直觉还是科学,Sora是否真的理解物理世界?

英伟达高级研究科学家Jim Fan认为,Sora是一个数据驱动的物理引擎,是一个可学习的模拟器,或“世界模型”。

图片

虽然 Sora 的发布让整个AI界为之疯狂,“Sora 是世界模型”这一观点仍受到诸多专家质疑。

什么是“世界模型”?

关于“世界模型”的议题其实在ChatGPT发布之后也曾引发业界争论。一些专家认为,大型语言模型不过是随机鹦鹉,它们并不理解真实世界,只是统计某个词语出现的概率,然后像鹦鹉一样随机产生看起来合理的字句。而持相反意见的派别认为,在大语言模型内部,尤其GPT这种规模的模型内部已有一个“世界模型”。

同样的争论因Sora的出现达到高潮。

图灵奖得主、Meta首席人工智能科学家杨立昆在X平台多次发文表达其看法。“世界模型”一直是杨立昆的研究重点,在他看来, 仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。

最近,杨立昆给出了“世界模型”的新定义。他将世界模型视为一种计算框架,该框架基于当前观测值x(t)、前一时刻的世界状态s(t)、动作提议a(t)以及潜在变量z(t)进行运算。其中,编码器Enc()负责将观测转化为内部表示h(t),预测器Pred()则根据这些信息和行动提议来预测下一时刻的世界状态s(t+1)。值得注意的是,潜在变量z(t)代表那些允许精确预测未知变化的关键信息,它从一个分布或集合中抽样得出,并决定了可能预测结果的范围。

图片

总而言之,杨立昆极力反对 “Sora 是世界模型”这种说法的一个重要原因是,他认为 自回归生成模型(Sora等在内的GPT系列大语言模型所依赖的学习范式)只是世界模型中一种简化的特殊情况。

从专业角度来看,Sora视频生成的确还存在很多缺点:

1、物理交互的不准确模拟 :Sora模型在模拟基本物理交互,如玻璃破碎等方面不够精确。可能是因为模型无法充分学习与理解复杂物理过程的底层原理。

2、对象状态变化的不正确 :模拟吃食物这类涉及对象状态显著变化的交互时,Sora可能无法始终正确反映出变化,这表明模型可能在理解与预测对象状态变化的动态过程方面存在局限。

3、长时视频样本的不连贯性 :在生成长时间视频样本时,Sora可能会产生不连贯的情节或细节,可能是由于模型难以在长时间跨度内保持上下文的一致性。

4、对象的突然出现 :视频中可能会出现对象无缘无故出现,表明模型在空间与时间连续性理解上还有待提高。

重播 分享
观看更多

视频加载失败,请刷新页面再试

刷新
视频详情

显然,现阶段Sora还不足以稳定的模拟物理世界,更无法完全“理解”物理世界,但不可否认Sora在文生视频领域具有里程碑式的意义。

#03

Sora来了,AI的发展仍处于前牛顿时期?

其实,早在今年年初a16z就发布研究报告《为什么2023年是AI视频的爆发年,以及2024年可以期待什么》,a16z追踪了2023年AI视频领域最值得的公司和该领域仍待解决的基本问题。

图片

经过一年的发展,AI生成视频在场景控制、时间连贯性和视频长度上仍旧是大部分公司尚未解决的难点。似乎,AI生成视频正处于GPT-2的水平。

Sora的出现让我们仿佛看到了AI视频GPT-3的突破,但是好像还缺少点什么?是数据量不够大?还是GPU算力不足?

或许AI视频的突破来自于人类对科学认知的突破,尽管AI已经取得了阶段性的成果,但本质问题还没有得到解决。

近日,杨立昆参加了迪拜世界政府峰会(WGS),在采访中他再一次分享了自己的AI见解。在他看来,我们已经在使用互联网上所有的公共数据,仅依靠海量文本训练出来的大模型,还远达不到人类的智力水平。他始终认为,文字只能承载一小部分人类知识,而绝大部分智慧都来自人类与现实世界以及人类之间的互动。想让AI像人类一样观察世界,还需要更多科学突破。

图片

知名学者李飞飞教授认为,几百年前,牛顿开启了现代物理学。牛顿对物理学的意义是一整套完美的理论体系,人工智能还没有牛顿力学式的理论成果,能去解释算法和人工智能的问题。

李飞飞也在公开发言中时常提醒,现在只是人工智能的起步点。“物理学从牛顿力学走到电磁学,到量子力学,到相对论,走了多少步,现在还在继续发展。站在人工智能研究者的角度,我自己是带着非常谦卑的心在看我们这个领域。”

去年5月,李飞飞与吴恩达在斯坦福大学进行了一次对话,在对话中,李飞飞再次强调“智能”问题,并与吴恩达达成共识, “我们仍处于前牛顿时期”

图片

以下为对话原文

吴恩达: 你现在有一个大胆的问题吗?

李飞飞: 是的,我的大胆问题仍然是 “智能” 。我认为自从艾伦·图灵以来,人类还没有完全理解智能背后的基本计算原理。我们今天使用的词汇是AGI(通用人工智能)。但归根结底,我仍然梦想着一组简单的方程或原理,可以定义智能的过程,无论是动物智能还是机器智能。

这与物理学类似,例如,很多人用飞行的类比来加入讨论,我们是在复制鸟的飞行还是在造飞机。很多人问关于AI与大脑之间的关系的问题。对我来说,无论我们是在造一只鸟,复制一只鸟还是造飞机,归根结底,控制飞行过程的是空气动力学和物理学。我相信总有一天我们会发现...

吴恩达 :我有时会思考这个学习算法假设,即很多智能可能并不是由一个或非常简单的机器学习原理来解释的。看起来,我们离解开这个难题还有很长的路要走。但在周末,我们闲暇的时间里思考学习算法及其可能走向,这是一件让我兴奋的事情,你知道,我对此非常期待。

李飞飞: 我同意,我仍然觉得我们处于前牛顿时期。 如果用物理学的类比,牛顿之前已经有了伟大的物理学家,大量的现象学研究,关于星体运动等等。但是牛顿开始提出了非常简单的定律。我认为我们仍然处在AI作为基础科学逐渐成熟的令人兴奋的时刻。

吴恩达: 听你说,虽然机器学习和AI已经取得了如此大的进展,但仍然感觉还有很多未解决的问题,还有很多工作需要通过可能是今天加入这个领域的人们来完成,而不是我们。

李飞飞: 当然,我们来算一下,也就是60年左右吧。这是一个非常年轻的领域,现代的物理学、化学和生物学已经发展了几百年了。所以我认为,进入智能科学领域并研究AI是非常令人兴奋的事情。

吴恩达: 我记得曾与已故的约翰·麦卡锡教授交谈过,他创造了“ AI ”这个术语。这个领域自从他在一个研讨会上提出这个术语以来发生了很大的变化,也许再过10年,现在正在观看这个视频的某个人会带来一套新的想法,然后我们会说,哇,AI与你和我当初想的完全不同,这是一个充满激动的未来。

李飞飞: 是的,我确定牛顿不会想到爱因斯坦,我们科学的进化有时跨越式地发展,有时需要很长时间,我们现在绝对处于AI令人兴奋的阶段。

吴恩达: 听到你为AI描绘这个宏伟的愿景真是有趣。

Sora的发布让更多人对生成式AI的发展充满了信心,也带动行业加速向前。

正如OpenAI在技术报告中所强调,Sora不只是一个视频生成器,还是“理解和模拟真实世界的基础”,研究正在朝着创造能够模拟一切的超级模拟器迈进。

或许有一 AI真的能像人类 一样去观察世界、感知世界、 理解世

我们期待那一天的到来。

相关参考:

https://www.youtube.com/watch?v=UNhC6Ox0T0o

https://openai.com/research/video-generation-models-as-world-simulators

https://twitter.com/ylecun/status/41921817

《OpenAI文生视频模型Sora引爆科技圈,第一时间解读Sora官方技术报告》,腾讯科技

《通俗易懂解释OpenAI Sora视频生成特点,与Runway Gen2、Pika对比分析》,DataLearner

《为什么2023年是AI视频的爆发年,以及2024年可以期待什么》,a16z

《斯坦福李飞飞:我们仍处于牛顿前时期,智能的根本是一组简单方程?》,AI寒武纪

*素材来源于网络

全球精选栏目

全球精选致力于为你“筛选、记录、解构”海内外最优质的人工智能前沿信息。

在这里,你将发现世界各地的创新成果、科技突破、行业趋势、商业思考以及那些引领AGI潮流的精英企业和人物。

此栏目每周更新,描摹AGI时代国际格局, 与全球创新者共探未来。

WAIC 2024已开启申报 扫码获取申请表或垂询 抢先预约2024不容错过的AI盛会 图片

图片
图片
图片
图片
点击回顾WAIC 2023精彩

参考资料:

上海世界人工智能大会

WAIC

举办地区:上海

展会日期:2024年07月04日-2024年07月06日

开闭馆时间:09:00-18:00

举办地址:上海市浦东新区周家渡世博大道1500号

展览面积:30000

观众数量:26000

举办周期:1年1届

主办单位:世界人工智能大会

声明:文章部分图文版权归原创作者所有,不做商业用途,如有侵权,请与我们联系删除。

人工智能展会

更多 更多
上海世界移动通信大会
MWC SHANGHAI
2025.06.18-06.20
展位预定
门票预定
中国国际供应链促进博览会-北京链博会
CISCE
2024.11.26-11.30
展位预定
门票预定
深圳国际人工智能展
GAIE
2024.09.09-09.11
展位预定
门票预定
北京人工智能展-中国国际智能科技产业博览会
世亚智博会
延期 2024.06.28-06.30
展位预定
门票预定
英国伦敦科技周
London Tech Week
2024.06.10-06.14
展位预定
门票预定
上海世界人工智能大会
WAIC
2024.07.04-07.06
头像
头像
头像
顺网科技
展位预定
门票预定
南京人工智能展-中国国际智能科技产业博览会
世亚智博会
2024.11.22-11.24
头像
头像
头像
菱商
展位预定
门票预定
郑州世界数字产业博览会
WDIE
2024.03.21-03.23
头像
头像
头像
网易(平顶山)联合创新中心
展位预定
门票预定
北京全球数字经济大会
Global Digital Economy Conference
2024.07.02-07.05
头像
头像
头像
高维会展(深圳)有限公司
展位预定
门票预定
深圳国际元宇宙及电竞娱乐展
MES
2025.02.17-02.19
头像
头像
头像
科技视讯
展位预定
门票预定

人工智能行业资讯

更多 更多
展商动态|星环科技知识平台TKH:引领企业构建高效AI基础设施,加速数智化转型新纪元
2024-07-03 14:43:17
分类:人工智能 热门 43
AI风云会|解密AI算力,人工智能产业发展“芯”动力!
2024-07-03 13:04:12
分类:人工智能 热门 32
WAIC创投生态|“Future Tech投资天团”招募启动!
2024-07-03 13:02:54
分类:人工智能 热门 45
【第90届API China精彩活动回顾】国药励展发起“中国医药健康产业绿色可持续发展联合倡议”
2024-07-03 09:47:28
分类:人工智能 热门 26
采购团组福利|精准匹配,高效洽谈,WAIC 2024专业观众采购团组报名正式开启!
2024-07-03 08:43:33
分类:人工智能 热门 32
记者报名|2024世界人工智能大会暨人工智能全球治理高级别会议记者报名通道开启!
2024-07-03 08:42:58
分类:人工智能 热门 31
大会发布|WAIC 2024倒计时30天发布会顺利召开,主视觉及主题发布!
2024-07-03 08:42:08
分类:人工智能 热门 46
BPAA 第四届全球应用算法模型典范大赛启动
2024-07-02 21:12:53
分类:人工智能 热门 40