DeepMind CEO:十年内实现AGI,我一点都不惊讶
叨乐 发自 凹非寺
量子位 | 公众号 QbitAI
AGI何时会实现?谷歌DeepMind CEO哈萨比斯在最新的采访中预言:
十年。
如果AGI在接下来的十年内出现,我不会感到惊讶。
在这次访谈中,哈萨比斯大谈特谈AI的发展趋势。
其中不乏一些大家比较感兴趣的话题,例如:
短期内AI存在炒作过度的情况,但长期来看,其潜力和影响仍被低估
Google DeepMind作为谷歌的“超级团队”,需在商业利益与科学研究间找到平衡
开源对科技进步很重要,但遇到可能被滥用的技术时,可能需要等上一年再将其开源,以此来评估和限制滥用。
更多具体内容,且看下面的文字版分享~
早期AI的“落地问题”
Q:今天的访谈,我今天邀请了DeepMind的联合创始人兼现任Google DeepMind CEO,哈萨比斯。
哈萨比斯:谢谢你,非常高兴还能参与你的访谈。之前我们探讨了概念和语言如何在现实世界中得到应用,比如在模拟环境中或者作为机器人具备的实际智能,这可能是我们理解周围世界所必需的。
然而,必须承认的是,这些系统目前还未达到那个理想水平,它们会犯下许多错误,并且尚未真正构建一个关于世界的完整模型。尽管如此,仅通过语言学习,它们所取得的进步已经远远超出了我们的预期。
Q:是的,我们上一次讨论了很多关于如何将语言在现实世界中落地的问题。不过你能不能简要解释一下什么是“落地”?防止第一次看我们访谈的朋友听不懂。
哈萨比斯:“落地”这一概念,源于80年代和90年代在诸如MIT等学术机构所构建的经典AI系统。这些系统多为庞大的逻辑体系,可以想象为内含众多相互关联的单词的巨型数据库。
然而,问题在于,尽管你能在数据库中找到如“狗有四条腿”这样的陈述,但当系统面对一张真实的狗的照片时,却无法将这些像素点与数据库中的符号相对应,这就是所谓的“落地问题”。
换言之,系统拥有了符号或抽象表示,却无法理解这些表示在现实世界中的具体含义。此后,尽管人们尝试解决这个问题,但始终无法达到完美的状态。
与过去的系统不同,如今的AI系统直接从数据中学习,并在一开始就建立了数据与现实世界的联系。
有趣的是,即使这些系统最初只是基于语言进行学习,理论上应该缺乏大量的“落地”所需信息,因为它们并未与现实世界中的模拟器、机器人或其他形式的输入相连接,而仅仅是在语言空间中进行学习。
然而,令人惊讶的是,这些系统仍然能够从中推断出关于现实世界的一些知识。
Q:这可能是因为,在人们与系统互动的过程中,会告诉系统哪些答案是正确的,哪些是错误的。通过这种方式的反馈,系统得以接收到部分“落地”信息,从而逐渐建立起与现实世界的联系。
哈萨比斯:确实,如果系统在早期版本中因为缺乏“落地”信息而给出了错误的回答,比如错误地回答了“狗会怎么叫”这样的问题,那么人们的反馈就会对其进行纠正。
这种反馈是基于我们自身的“落地”知识,所以,在某种程度上,系统会吸收并学习这种反馈中的信息。
短期内被炒作,长远看被低估
Q:除此之外,我还有点想问问你关于AI炒作的问题。你觉得我们现在的处境,目前的情况,是炒作不足,还是炒作过度?
哈萨比斯:我认为更多的是后者。我想说,从近期来看,炒作有些过头了。
我觉得人们说AI能做各种事情,但是实际上它却没有人们说的那么厉害。现在有很多初创公司和风险投资都在追逐那些不切实际的想法,他们的想法都不是很成熟。
但另一方面,我认为即使是现在,它仍然是被低估的,或者说还没有得到足够的重视。尤其是在我们到达AGI和后AGI阶段时,我仍然觉得人们没有完全理解这将会是一个多么大的变化,以及随之而来的责任。
所以,我认为从短期来看,确实有点炒作过头了,但是从长远来看的话,它还是被低估了的。
从多模态Gemini到Astra通用AI代理
Q:好的,现在我要提一个这次访谈中一个比较重要的问题,你认为Gemini与其他实验室发布的大型语言模型有何不同呢?
哈萨比斯:我们从Gemini项目的最开始就设定了一个目标,那就是让它能够同时处理多种类型的数据。我们希望它不仅能理解文字,还能解析声音、视频、图片和代码等,基本上就是各种形式的信息。
我们深信,只有让系统能够理解和处理真实世界中的各种信息,它们才能真正地理解这个世界,进而构建出更加精确和全面的世界模型。
这其实也是我们上面提到的“落地”问题的一个延伸,只不过这次我们是利用语言作为基础来实现这一点。
Q:所以“落地”仍然是整个项目的关键?
哈萨比斯:确实,这一点至关重要。
我们还有一个终极目标,那就是打造一个全能的助手。我们已经开发了一个名为Astro的项目原型,Astro不仅能理解你的输入,还能感知你所处的环境背景。
试想一下,如果你的个人助理或数字助理能更深入地理解你的问题背景或你所处的情境,那它将更加得力。因此,我们始终坚信,这种系统类型将更具实用价值。
为此,我们从项目启动之初就将多模态功能融入系统中。在当时,这是唯一一个具备此功能的模型,而现在,其他模型也在努力追赶。
Q:Astro项目是新兴的通用AI代理,它能够处理视频和音频数据。我记得在Google I/O大会上,你们展示了Astro如何帮助用户记住眼镜放置位置的实例。我对此技术的渊源很感兴趣,它是否仅仅是旧版Google Glass的一种高级进化形态?
哈萨比斯:Google在眼镜类设备的开发领域拥有悠久的历史,早在2012年左右就已涉足。因此,他们在这一领域具有显著的先发优势。可能当时缺乏必要的技术来使智能助手理解其所见之物。但如今,有了这款数字助理的陪伴,它能够理解你周围的世界,让人感觉非常自然。
Q:我想追溯Gemini的起源,因为它源自组织内的两个独立部门,它是由他们共同完成的?
哈萨比斯:确实,去年我们把Alphabet(谷歌母公司)的两个研究部门,也就是原来的DeepMind和Google Brain,合并成了一个新的部门,我们管它叫“超级部门”。
这样一来,公司里所有顶尖的人才都聚到了一个团队里,我们把所有研究领域的最棒的知识都融合在一起了,特别是在语言模型方面。
我们之前有一些项目,比如Trin Chilla、Gopher,它们都参与过早期语言模型,像Palm和Lambda的开发。这些模型各有各的长处和短处,而我们都把它们融合到了Gemini这个项目里,这是合并后的第一个非常重要的项目。
另外,还有一个特别重要的点,就是我们把所有的计算资源都整合到一起了。这样一来,我们就能进行大规模的训练运行,实际上就是把所有的计算力量都集中到一起,让Gemini更加强大和高效。
这两个团队一直以来都盯着AI的最前沿,之前在个人研究上也已经有很多合作了,但可能在战略上还没那么紧密。现在合并后的团队,我将其描述为Google的“引擎室”。
我觉得两个团队的工作方式其实挺像的,差别不大。接下来,我们会继续加强在基础研究上的优势,比如琢磨下一个Transformer架构会是啥样,我们都想自己搞出来。
说起来,之前的Transformer是Google Brain搞出来的,我们又把它和Deep Reinforcement Learning结合到一起,但我觉得还得有更多创新才行。我相信,就像过去10年一样,不管是Brain还是DeepMind,我们都会继续出力。
Google的“引擎室”
Q:你刚才说,Google DeepMind现在是Google的“引擎室”,这是一个很大的变化。我想知道现在Google是不是在你身上下重注了?
哈萨比斯:我觉得是的。我认为Google一直都很清楚AI的重要性。皮猜在他刚担任CEO的时候就说过,Google是一家“AI优先”的公司。
我们在他刚上任的时候就讨论过这个话题,他看到了AI作为继移动互联网之后的下一个重大范式转变的潜力,而且它的影响力比这些还要深远。
但我认为,在过去一两年里,我们才开始真正理解这意味着什么,不仅仅是从研究的角度来看,还包括产品和其他各个方面。所以,这是一个非常激动人心的时刻,但我认为这是我们整合所有人才并全力以赴的正确选择。
Q:从另一个角度来看,对于DeepMind而言,现在成为Google的“引擎室”,是否意味着你们必须在考虑商业利益与纯粹的科学研究之间找到更多的平衡?
哈萨比斯:确实,我们现在需要更多地考虑商业利益,这已经成为我们职责的一部分。不过,实际上还是有一些观点需要澄清,我们会继续推进我们的科学研究工作,我们在这方面的投入还在不断增加。
我认为,这是我们在Google DeepMind所做的一件独一无二的事情,甚至我们的竞争对手也将这些成果视为AI带来的普遍益处。
“开源”很有必要
Q:好的,这就引出了我想问的下一个问题:开源。当技术普及到大众手中时,就像你说的,可能会发生一些非常了不起的事情。我知道DeepMind过去开源了很多研究项目,但现在似乎这种情况有所改变。你能聊聊你对开源的看法吗?
哈萨比斯:开源很有必要,我们一直是开源和开放科学的坚定支持者。就像你知道的,我们几乎发布了所有做过的研究项目,包括像Transformer和AlphaGo这样的项目,我们都在《自然》和《科学》这样的顶级杂志上公开了。
AlphaFold也是开源的,这些都是我们做出的明智选择。你说得对,这种方式之所以有效,是因为通过共享信息,科技和科学可以以最快的速度进步。在大多数情况下,开源都是普遍有益的,这也是科学的运作方式。
不过,也有例外情况,那就是当涉及到具有双重用途的技术时,比如AGI和强大的AI。
问题在于,你希望能够启用所有的良性用例,希望那些真正的科学家和技术人员能够基于这些想法进行构建和批判,从而推动社会快速进步。但同时,如何限制那些可能滥用这些系统的坏人,这就是问题所在。
现在还好,因为我觉得这些系统还不够强大,但在两三年后,尤其是当你开始获得具有代理行为的系统时,可能会造成严重的伤害。
我们有自己开源的Gemini模型,叫做Gemma,但它们是较小的模型,不是最前沿的模型。
它们的能力对于开发人员来说仍然非常有用,因为它们可以在笔记本电脑上运行,也因为它们的参数量较少。它们的能力在目前这个阶段已经被充分理解,因为它们并不是最新的最前沿模型。
可能我们最终会采取的做法是,我们会有开源模型,但它们会落后于最新的前沿模型一年左右,这样我们可以在用户的公开测试中真正评估这些模型的能力。
开源的一个问题是,如果出了问题,你无法召回它。对于专有模型,如果坏人开始以不良方式使用它,你可以关闭它,在极端情况下甚至可以关闭整个系统。但一旦你开源了某个东西,就无法收回了,这是单向的门。
AGI将在十年内实现
Q:现在各种AI模型都是科研人员研发的,但是我想知道,如果我们进入AI支持所有科学研究的阶段,研发机构是否还会有存在的空间?
哈萨比斯:我认为还是有存在空间的,我们现在正处于通用AGI出现前的阶段,我认为这需要社会、学术界、政府和工业实验室之间的紧密合作。
我真的坚信,这是我们最终达成目标的唯一途径。如果你问的是AGI之后的情况,那可能才是你真正想了解的。AGI一直是我渴望构建的目标,因为我们可以利用它来探索一些关于现实本质、物理学、意识等方面的最基本问题。
Q:计算机科学家Stuart Russell曾告诉我,他有些担心,一旦我们达到了AGI,可能我们都会像过去的贵族一样,只会享受无忧无虑的奢华生活,没有任何目标,也不会思考。
哈萨比斯:我认为未来将会非常有趣。但这也涉及到我之前提到的“被低估”的问题,即近期与远期的炒作之间的差异。如果你愿意称之为炒作,那么它确实在一定程度上被低估了。
我觉得未来的转变将会是巨大的。我相信最终我们能够治愈很多疾病,甚至所有疾病,解决能源问题、气候问题。
Q:说到这,我记得你曾经说过希望AGI能够探索宇宙的奥秘,你认为是否存在一些我们尚未设想过的可能性,比如虫洞这样的现象?
哈萨比斯:当然,我完全相信这种可能性。我真心期望虫洞能够成为现实。在我看来,我们对物理学和现实的本质还存在许多误解。
显然,量子力学与引力的统一、标准模型的问题、弦理论等等,都隐藏着无数的未解之谜。我与许多物理学界的朋友深入交流过,他们都认为现有的理论框架中有很多东西无法完美地契合在一起。
我个人对多元宇宙的解释并不太感冒,因此我认为,如果我们能提出新的理论,并在太空中利用大型设备进行验证,那将是一件非常了不起的事情。
我之所以对普朗克尺度的时间和空间如此着迷,是因为它似乎代表了现实的极限分辨率,就像是一切事物可以被分割到的最小单位。
因此,我认为我们应该在这个层次上进行深入的实验探索,特别是在我们拥有AGI和丰富资源的情况下,或许我们能够设计或建造出这样的实验设备。
Q:你曾说过DeepMind是一个20年的项目,现在我们走了多远?你们还在按计划推进吗?
哈萨比斯:是的,我们仍在按计划推进,这听起来可能有些不可思议,因为通常20年的项目总是让人感觉还需要20年才能完成。但我们已经取得了很大的进展。
我们的目标是在2030年完成,所以如果能在未来十年内达成这个目标,我也不会感到惊讶。
- 视频地址:https://www.youtube.com/watch?v=pZybROKrj2Q *
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则