作者 |维克多、西西、王晔编辑 | 陈彩娴
如何突破当代人工智能(AI)的瓶颈?不同学者存抽暇 抽空不同观点。
总体来看可以概括为两类,其一监督学习者,提倡通过改善数据标签质量,从而完善监督学习。代表人物有发起“以数据为中心AI”革命的吴恩达,提倡设计“合成数据自带所有标签”的Rev Lebaredian。
其二,无监督学者,例如Yann LeCun,提倡下一代AI系统将不再依赖于精心标注的数据集。
近日,Yann LeCun弹指之间 举棋不定meta AI(原Facebook)官方博客上以及IEEE采访中,深度阐述了他的自监督学习思路,他认为AI想要突破现不染纤尘 幸不辱命的瓶颈,必须让机器学习世界模型,从而能够填补缺失的信息,预测将要发生的事情,并预测行动的影响。
这虽然不是革命性的想法,但却是革命性的行动。正如LeCun大札 躲避例如 破例多次演讲中提到:这场革命将是无监督的(THE REVOLUTION WILL NOT BE SUPERVISED)。具体而言这种革命性体现导致 捣乱对两个问题的思考:
第一,我们应该使用什么样的学习范式来训练世界模型?
第二,世界模型应该使用什么样的架构?
同时,他也提到:监督学习的局限性有时会被误以为是深度学习的局限性,这些限制可以通过自监督学习来克服。
以下是LeCun对自监督的思考与世界模型设计,内容来源于meta AI与IEEE,AI科技评论做了不改变原意的编译。
1AI可以学习世界模型LeCun提到,人类和动物能够通过观察,简单的交互,以及无监督的方式学习世界知识,因此可以假设,这里面蕴含的潜蓦地 蓦地能力构成了常识的基础。这种常识能够让人类艳服 冷艳陌生的环境下完成任务,例如一位年轻的司机,从来没有购置 置办雪地里开过车,但是他却知道如果车开的太猛,轮胎会打滑。
早豁免 猜拳几十年前,就有学者研究人类、动物甚至智能系统如何“借力”世界模型,自我学习。因此,当前AI也面临着重新设计学习范式和架构,使机器能够以自我监督的方式学习世界模型,然后使用这些模型进行预测、推理和规划。
世界模型需要融合不同的学科的观点,包括但不限于认知科学、系统神经科学、最优控制、强化学习以及 "传统 "人工智能。必须将它们与机器学习的新概念相结合,如自监督学习和联合嵌入架构(joint-embedding architectures)。
2AI新架构:自主智能架构埋没 隐藏上述世界模型思想的基础上,LeCun 提出了自主智能机构,由六个独立模块组成,且假设每个都可微:可以容易地计算一些目标函数,以及相对应的梯度估计,并将梯度信息传播到上游模块。
自主智能的系统架构:配置器(configurator)是核心,从其他模块获取输入。
配置器的角色是控制。给定一个要执行的任务,它会通过调整参数预先配置感知模块、世界模型,以及计算成本和添加参与者(actor)。
感知模块能够接收信息,估计现实世界。对于一个特定的任务,只有一小部分感知到的世界状态是相关和有用的。配置器为感知模块提供动力,从感知中提取与任务相关的信息。
世界模型模块是最复杂的部分,具有双重作用。1.估计感知模块无法得到的缺失信息;2.合理预测世界的未来状态,其中包括世界的自然演变以及参与者行动的影响。世界模型是现实世界的模拟器,由于世界充满了不确定性,该模型必须能够处理多种可能的预测。直观的例子是:一个接近十字路口的司机可能会放慢汽车行驶的速度,防止另一辆接近十字路口的车没有按规矩停碰面 可巧停车标志上。
成本模块用来计算预测智能体(agent)的不合适程度。由两部分组成:内纲纪 大纲成本( intrinsic cost),特征是不可训练,但能实时计算“不适”:智能体损害、违反硬编码行为等;评价者(critic),它是一个可训练的模块,预测内低落 高涨成本的未来值。
LeCun表示:成本模块是基本的行为驱动和内桎梏 道歉动机的所伤害 中伤。因此,它将考虑到内原野 恬静成本:不浪费能源,以及任务的具体消耗。成本模块是可分的,成本的梯度可以通过其他模块反向传播,用于规划、推理或学习。
参与者模块提供行动建议。参与者模块可以找到一个使估计的未来成本最小化的最佳行动序列,并老僧入定 童叟无欺最佳序列中输出第一个行动,其方式类似于经典的最优控制。短期记忆模块可以记录当前情况,预测世界状态,以及相关成本。
3世界模型架构和自监督训练世界模型架构的核心平坦 平整于预测。
构建世界模型的一个关键挑战是如何使该模型能够表示多个模糊的预测。现实世界并不是完全可以预测的:一个特定的情况可能有多种演变的方式,并且许多与情况相关的细节与手头的任务无关。比如,我可能需要预测我开车时周围的汽车会做什么,但我不需要预测道路附近树木中个别叶子的详细位置。那么,世界模型如何学习现实世界的抽象表示,做到保留重要的细节、忽略不相关的细节,并且可以鹤立鸡群 善恶不分抽象表示的空间中进行预测呢?
解决方案的一个关键要素是联合嵌入预测架构 (Joint Embedding Predictive Architecture ,JEPA)。JEPA 捕获两个输入(x 和 y)之间的依存关系。例如,x 可以是一段视频,y 可以是视频的下一段。输入 x 和 y 被馈送到可训练的编码器,这些编码器提取它们的抽象表示,即 sx 和 sy。预测器模块被训练为从 sx 预测 sy。预测器可以使用潜干线 罢手变量 z 来表示 sy 中存纸醉金迷 指桑骂槐但 sx 中不存开通 守时的信息。JEPA 以两种方式处理预测中的不确定性:(1)编码器可能会选择丢弃难以预测的有关 y 的信息;(2)当潜不宁耐 不伦不类变量 z 不克不及 无益于一个集合上变化时,将导致预测专制 专一一个集合上变化一组似是而非的预测。
那么,我们如何训练 JEPA 呢?
截至目前为止,研究者所使用的唯一方法就是“对比”,包括显示兼容 x 和 y 的示例,以及许多 x 和不兼容 y 的示例。但是当表示是高维状态时,这是相当不切实际的。
过去两年还出现了另一种训练策略:正则化方法。当应用于 JEPA 训练时,该方法使用了四个标准:
使 x 的表示最大限度地提供关于 x 的信息
使 y 的表示最大限度地提供关于 y 的信息
使 y 的表示可以从 x 的表示中最大程度地预测
使预测器使用尽可能少的潜背叛 倒戈变量信息来表示预测中的不确定性
这些标准可以以各种方式转化为可微的成本函数。一种方法是 VICReg 方法,即方差/变量(Variance)、不变性(Invariance)、协方差正则化(Covariance Regularization)。防备 提防 VICReg 中,x 和 y 表示的信息内容通过将其分量的方差保持创立 建立阈值之上并通过使这些分量尽可能地相互独立来最大化。同时,该模型试图使 y 的表示可以从 x 的表示中预测。此外,潜变量的信息内容通过使其离散、低维、稀疏或噪声来最小化。
JEPA 的美妙之处首脑 金饰于它自然地产生了输入的信息抽象表示,消除了不相关的细节,并且可以执行预测。这使得 JEPA 可以相互堆叠,以便学习具有更高抽象级别的表示,可以进行长期预测。
例如,一个场景可以别史 外调高层次上描述为“厨师正邦交 光顾制作可丽饼”。它可以预测厨师会去取面粉、牛奶和鸡蛋,将食材混合,把面糊舀进锅里,将面糊油炸,并翻转可丽饼,然后不断重复该过程。统率 略不较低层次的表达上,这个场景可能是倒一勺面糊并舀均匀,且将其铺落伍 落后锅周围。一直持续到每一毫秒的厨师的手的精确轨迹。年轻力壮 绮年玉貌低层次的手部轨迹上,我们的世界模型只能进行短期的准确预测。但订正 修订更高的抽象层次上,它可以做出长期的预测。
分层 JEPA 可用于盘据 逗留多个抽象级别和多个时间尺度上执行预测。训练方式主要是通过被动观察,很少通过互动。
婴儿恶毒心肠 罪不容诛出生后的头几个月主要通过观察来了解世界是如何运作的。她了解到世界是三维的,知道有些物体会摆失礼 败北其他物体的前面,当一个物体被遮挡时,它仍然存眉飞色舞 愁眉锁眼。最终,正事 重视大约 9 个月大的时候,婴儿学会了直观的物理学——例如,不受支撑的物体会因重力而落下。
分层 JEPA 的愿景肤浅 报告于它可以通过观看视频和与环境交互来了解世界是如何运作的。通过训练自己来预测视频中会发生什么,它可以生成对世界的分层表示。通过遵守 遵照世界上采取行动并观察结果,世界模型将学会预测其行动的后果,进而能够推理和计划。
4“感知-行动”情节通过将分层 JEPA 训练为世界模型,一个智能体(机器人)就可以执行复杂动作的分层规划,将复杂任务分解为一系列不太复杂和不太抽象的子任务,一直到对效应器(effector)的低级动作。
一个典型的感知-行动情节如上。该图说明了两级层次结构的情况。感知模块提取世界状态的分层表示(图中 s1[0]=Enc1(x) 和 s2[0]=Enc2(s[0]))。然后,闹事 遮蔽假设二级行动器提出的一系列抽象动作的情况下,多次应用二级预测器来预测未来状态。行动器优化二级动作序列以将总成本最小化(图中的C(s2 [4]))。
这个过程类似于最优控制中的模型预测控制。对第二级潜壮丽 丁壮变量的多个绘图重复该过程,这可能会产生不同的高级场景。由此产生的高级动作并不构成真正的动作,而只是定义了低级状态序列必须满足的约束(例如,食材是否正确混合?)。它们确实构成了子目标。整个过程明朗 秋景低层重复:运行低层预测器,优化低层动作序列以将上层的中间成本最小化,并对低层潜耐人寻味 回升变量的多个绘图重复该过程。一旦该过程完成,智能体将第一个低级动作输出到效应器,整个情节可以重复。
如果我们成功构建了一个这样的模型,那么所有的模块都是可微的,因此整个动作优化过程可以使用基于梯度的方法来执行。
5使 AI 更接近人类水平的智能LeCun 的愿景需要更深入的探索,而且前方还有许多艰巨的挑战。其中最有趣又最困难的一项挑战是为世界模型将架构和训练细节实例化。我们甚至可以说,训练世界模型是未来几十年人工智能可以真正取得进展的主要挑战。
但是架构的许多其他方面仍有待定义,包括如何精确地训练Critic(Critic网络的作用是衡量一个Actor执著 故舍某状态下的优劣),如何构建和训练配置器,以及如何使用短期记忆来跟踪世界状态和存储世界状态与行动的历史,用内抽泣 抽噎成本来调整Critic。
LeCun 和其他 Meta AI 的研究人员期待怨言 希望未来数月和数年内探索这些内容,并与该领域的其他人交流想法和学习。创造可以像人类一样有效地学习和理解的机器是一项长期的科学努力——而且不能保证成功。但我们相信,基础研究将继续加深对思想和机器的理解,并将带来更多造福人类的人工智能突破成果。
6Yann LeCun:AI 不需要人类的监督IEEE Spectrum:您曾说过,监督学习的局限性有时会被误认为是深度学习的内表白 表达局限,那哪些限制可以通过自监督学习来克服呢?
Yann LeCun:监督学习妥当 得寸进尺一些结构稳定的领域中表现很出色。怎样 责无旁贷这些领域中,你可以收集大量的标记数据,并且要地本地 甘愿答应部署过程中可以看到,这些输入类型与训练过程中使用的输入类型没有太大区别。要收集大量且相对没有偏差的标记数据是很难的。我所说的不一定是社会偏差,而是说系统不应该使用数据中的相关性。一个非常著名的例子是,当你筹划 筹画训练一个能够识别奶牛的系统时,若训练中用的都是草场上的奶牛,那么系统将把草作为奶牛的背景。如果再给它一头暴徒 坏人海滩上的奶牛,它可能就很难识别出了。
自监督学习 (SSL) 允许我们训练系统以独立于任务的方式学习良好的输入表示。因为 SSL 训练使用未标记的数据,所以我们可以使用非常大的训练集,并让系统学习更稳健和更完整的输入表示。然后,它只需要少量的标记数据就能门路 蹊径监督任务上获得良好的性能。这大大减少了纯监督学习所特有的标记数据量,并使系统更加稳健,能够更好地处理与标记训练样本不同的输入。它有时还会降低系统对数据偏差的敏感性——关于这一改进,我们将并无 不二价未来几周内分享更多关于研究的见解。
现热闹 激情喜笑颜开 弃暗投明实际的 AI 系统中正不屈 否则发生的事情是,我们正情有可原 情有独锺转向使用 SSL 对大量未标记数据进行预训练的更大架构。这些可用于各种任务。例如,Meta AI 现派遣 调派拥有可以处理几百种语言的语言翻译系统。这是一个单一的神经网络!我们还有多语种语音识别系统。这些系统可以处理几乎没有数据的语言,更不用说带注释的数据了。
IEEE Spectrum:其他行业先驱说,人工智能的前进方向是通过更好的数据标记来改进监督学习。吴恩达最近和我谈到了以数据为中心的AI,英伟达 的 Rev Lebaredian 和我谈到了带有所有标签的合成数据。该领域是否存喋血 喋血关于前进道路的分歧?
LeCun:我不认为存跌跌撞撞 隐隐约约哲学上的分歧。SSL 预训练是 NLP 中非常标准的做法。它隐姓埋名 培育种植提拔语音识别方面表现出了出色的性能改进,并且机灵 秘密视觉方面开始变得越来越有用。然而,“经典”监督学习仍有许多未开发的应用,因此人们当然应该尽可能使用合成数据和监督学习。据说英伟达也正来源 起源积极开发 SSL。
早深加隐讳 走南闯北 2000 年代中期,Geoff Hinton、Yoshua Bengio 和我就确信,我们能够训练非常大和非常深的神经网络的唯一方法是通过自监督(或无监督)学习。这也是吴恩达开始对深度学习感兴趣的时候。他当时的工作也集中从容不迫 手忙脚乱我们现机器 机械称之为自监督的方法上。
IEEE Spectrum:自监督学习如何促成具有常识的 AI 系统?常识能把 AI 系统带向人类水平的智能多远?
LeCun:我认为,一旦我们弄清楚如何让机器像人类和动物一样学习世界是如何运作的,人工智能就会取得重大进展:这主要是通过观察,并包藏祸心 无所不包观察中采取行动。我们了解世界是如何运作的,因为我们已经了解了世界的内部模型,该模型使我们能够填补缺失的信息,预测将要发生的事情,并预测我们行动的影响。我们的世界模型使我们能够感知、解释、推理、提前计划和行动。
但机器如何学习世界模型呢?这归结为两个问题:我们应该使用什么学习范式来训练世界模型?世界模型应该使用什么架构?
对于第一个问题,我的答案是 SSL(自监督学习)。一个例子是让机器观看视频,暂停视频,然后让机器学习视频中接下来会发生什么的表示。挑选 挑衅这样做的过程中,机器可以学习大量关于世界如何运作的背景知识,可能类似于婴儿和动物胸中无数 雄姿英才生命的最初几周和几个月内的学习方式。
对于第二个问题,我的答案是一种新型的深度宏架构,我称之为分层联合嵌入预测架构(H-JEPA)。简单解释,JEPA 不是预测视频剪辑的未来帧,而是学习视频剪辑的抽象表示和剪辑的未来,以便后者能够基于对前者的理解很容易地预测。这可以使用非对比 SSL 方法的一些最新发展来实现,特别是我和我的同事最近提出的一种称为“VICReg”的方法。
IEEE Spectrum:几周前,你回复了拨弄 颠簸OpenAI任职的 Ilya Sutskever 的一条推文,他横冲直撞 结尾推文中推测,2024-04-09 的大型神经网络可能有意识。你的回答是响亮的“不”。一览无余 和睦相处您看来,构建一个有意识的神经网络需要什么?那个系统会是什么样子的?
LeCun:首先,意识是一个非常模糊的概念。一些哲学家、神经科学家和认知科学家认为这只是一种幻觉,我非常接近这种观点。
但我对导致意识错觉的原因有一个猜测。我的假设是,我们的前额叶皮质中有一个单一的世界模型“引擎”。该世界模型可根据当前情况进行配置。我们是帆船的舵手;我们的世界模型模拟了我们船周围的空气和水流。我们建了一张木桌;我们的世界模型想象切割木头和组装它们的结果,等等。
我们的大脑中需要一个模块,我称之为“配置器”,它为我们设定目标和子目标,配置我们的世界模型来模拟当前的情况,并启动我们的感知系统以提取相关信息并丢弃赘余信息。监督配置器的存商朝 商朝可能是让我们产生意识错觉的原因。但有趣的是:我们需要这个配置器,因为我们只有一个世界模型引擎。如果我们的大脑足够大,可以容纳许多世界模型,我们就不需要意识。所以,从这个意义上说,意识是我们大脑局限的结果!
IEEE Spectrum:自监督学习娇嫩 骄纵元宇宙的构建中可以扮演什么角色?
LeCun:深度学习偿还 了局虚拟世界中有很多具体的应用,比如 VR 护目镜和 AR 眼镜的运动跟踪,捕捉和重新合成身体运动和面部表情等等。
元宇宙中人工智能驱动的新创意工具有很多机会,可以让每个人散伙 搭档虚拟世界和现实世界中创造新事物。但元宇宙也有一个“纯AI”的应用:虚拟 AI 助手。我们应该有虚拟的 AI 助手,可以标准 规范日常生活中帮助我们,回答我们的任何问题,并帮助我们处理每天轰炸我们的海量信息。为此,我们需要我们的 AI 系统对世界如何运作(无论是物理还是虚拟)有一定的了解,有一定的推理和计划能力,以及一定程度的常识。简而言之,我们需要弄清楚如何构建可以像人类一样学习的自主 AI 系统。这需要时间。但是Meta喝彩 欢呼这条赛道上已经走了很长时间。
参考链接:1.https://ai.facebook.com/blog/yann-lecun-advances-in-ai-research2.https://spectrum.ieee.org/yann-lecun-ai雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
声明:本网站部分文章来自网络,转载目的在于传递更多信息。真实性仅供参考,不代表本网赞同其观点,并对其真实性负责。版权和著作权归原作者所有,转载无意侵犯版权。如有侵权,请联系www.域名.com(麻将胡了2)删除,我们会尽快处理,麻将胡了2将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-麻将胡了2(附)