如何在元宇宙里训练AGI,未来可能是一个新的命题
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
ChatGPT和GPT-4引发全球地震,很多人都在思考一个问题:OpenAI的成功路径是什么?
在中国AIGC产业峰会现场,启元世界创始人兼CEO袁泉给出了他的答案,它很好地融合了三大时代红利。
三个红利具体如下:
- 一是摩尔定律带来的算力红利,尤其是GPU的算力;
- 二是算法的并行性带来规模可扩展的红利;
- 三是对无标注数据探索的红利。
2017年,Transformer出现后,OpenAI很快将这三点融合在一起,推出了GPT-1,而后GPT-2、GPT-3……
ChatGPT破圈之后,人们对AGI有了更多的理解和认识,而国内,启元世界也于早几年起开始在AGI方向探索。
启元世界成立于2017年。当时,几个联创在纽约听了AlphaGo创始人之一David Silver关于AlphaGo战胜李世石的分享,其中谈到了背后包含DL和RL的AGI技术,从而激发了他们对AGI的兴趣。
成立后,启元世界开始沿着AGI路径,以游戏为切入点,逐渐从互联网、元宇宙破圈。这一次,在总结OpenAI的成功路径后,关于践行AGI这件事,袁泉在活动现场分享了启元视角下的观点。
为了完整体现他的思考,在不改变原意的基础上,量子位对其演讲内容进行了编辑整理。
中国 AIGC 产业峰会是由量子位主办的行业峰会,近 20 位产业代表与会讨论。线下参与观众 600+,线上收看观众近 300 万,得到了包括 CCTV2、BTV 等在内的数十家媒体的广泛报道关注。
演讲要点:
- ChatGPT是站在三大技术红利之上的一个划时代产物;
- 在特定问题空间中,几千万参数的transformer就能取得不错的效果;
- 未来5到10年,AGI的重点是元宇宙,因为元宇宙的本质是互联网丰富的语料、交互和3D开放世界游戏的合体;
- 涌现能力除了与模型大小相关,还可能和问题领域的规模、AGI是否已在这个领域充分探索,都有一定关联;
- 将AIGC融入游戏制作阶段,如游戏策划,尤其是数值策划等,会优化整个游戏数值生态的平衡性。
以下为袁泉演讲全文:
站在三大技术红利之上的划时代产物
ChatGPT破圈之后,大家都在分析OpenAI的成功路径。这里我也谈一些启元的思考和实践。
从技术角度看,我们觉得ChatGPT是站在三大技术红利之上的一个划时代产物。
一个红利是摩尔定律带来算力红利,尤其是GPU的算力,可能超过摩尔定律的提升速度。
第二大红利就是算法的并行性所带来的scalable的红利。2017年底、Transformer出现之前,DL的算法,尤其用于做序列数据、序列决策的算法,主要以LSTM(Long Short-Term Memory,长短期记忆网络)为主,很难并行化。
Transformer发布第二天,Ilya Sutskever(OpenAI联合创始人兼首席科学家)就看到它的并行性以及长语境能带来的好处,于是研究转向以此为基础。
第三大红利就是大数据中的未标注数据。我个人觉得,从2016年起,OpenAI就对它开始看重。
GPT-1就是把这三点较好融合在一起的产物,GPT-2在其基础上拓展了10倍,GPT-3又拓展了100倍,这让业界十分吃惊。
RL之父、DeepMind研究科学家Richard Sutton在2019年就提到,之前几十年,AI发展过程走的最大的弯路,就没有用可扩展性来进行研究。
但OpenAI很快把这一套践行到GPT系列大模型上。
践行AGI发展路径的启元方式
启元是怎么践行AGI发展路径的呢?
第一个阶段,从2017年开始,启元用3年时间主要在包括《星际争霸》等游戏世界里探索AGI。
从零开始,只用少量的、5000局中韩高手游戏录像作为启动,在游戏中训练AGI。
一个比较有意思的现象是,在特定问题空间中,几千万参数的transformer就能取得不错的效果。基于此,启元把它优化后用到了游戏行业最主流的7大品类游戏中。
第二阶段是游戏世界往互联网世界破圈。2016年左右,OpenAI就开始探究在互联网上是否也能够基于DL、RL甚至AGI来训练很强的智能体。
Transformer出来后,OpenAI发现scalable的方法,这也让全世界发现把AGI技术用在价值大于游戏行业100倍的互联网里,能创造更大的商业价值和社会价值,带来很多机会。
第三个阶段,可能也是未来5到10年的重点,就是元宇宙。我们认为元宇宙的本质是互联网丰富的语料、交互和3D开放世界游戏的合体。
AIGC如何催生元宇宙、在元宇宙中如何训练AGI,使得它能力越来越强,能够完成更多的任务,可能也是未来非常有价值的命题。
最后一步可能是AGI虚实迁移,服务或者应用于现实世界中。
启元世界的发展过程则主要分两个阶段。
第一阶段是前三年,主要是在各类游戏中训练决策大模型为主,参数级别在几千万或者一亿以内,能够让AI用小样本做启动,甚至从零开始做启动,探索这一类任务的边界。
第二阶段是从2021年开始,我们开始做10亿到100亿参数的语言模型。
背后原因是我们觉得模型的参数大小其实和所解决任务空间的大小、任务下能够收集到高质量语料高度相关。在我们看来,10亿到100亿规模,能和各个行业垂直应用相结合的这一类模型,还有非常大的潜力。
在决策大模型这一块,以《星际争霸》智能体为代表,2020年6月份,我们击败中国星际职业选手,出现了一个今天看来比较反常识的认知,那就是今天看到千亿参数模型可以涌现出100多种不同能力,在当时4900万参数的星际模型现场比赛时,涌现出“维京流”这样的新策略玩法,即按照人类选手的经验和规则去放基地、建造新东西的玩法,给了大家一些启发。
△
AI对战人类选手现场
可能涌现能力除了与模型大小相关之外,和问题领域的规模,以及AGI是否在这个问题中已经充分探索到经验的边界,都有一定的关联。
做启发人和陪伴人的AGI
基于决策大模型的技术和平台,目前启元的目标主要是做启发人和陪伴人的AGI。
一方面在很多游戏中,比如在线用户不多时,AI陪人互动,陪人去玩。
第二方面我们叫“陪聊NPC”,比如说一局游戏结束后,上一局人机合作胜负如何、战况如何,下一局怎么打,用户都可以和AI进行交流。
还有一部分是将AIGC融入游戏制作阶段,如游戏策划,尤其是数值策划等,会优化整个游戏数值生态的平衡性,这一部分AI探索效率更高,也更能帮助在数值和平衡性方面进行优化。
最近我们在《三国志战棋版》中有一个落地案例。玩法是走格子下棋,几百张地图中,山川河流不一,还有几百个武将,每一局目标也不一样,有攻城、守城、野战、援护、撤退等等。
这里面就是启元训练的800万参数transformer智能体,可以用通用方式应对不同攻关需求,包括自己探究新的有意思的玩法。
这就是我们觉得并且基于涌现能力,AGI不仅能提升效率,还可能产生很多新的体验价值的原因。
去年开始,启元另一个重点是做陪聊NPC。
面向更广泛的虚拟世界,比如一些历史人物和二次元人物,用户也想跟他们深度互动。AGI技术让此成为可能。
我们基于刘备做了一个陪聊NPC,你问刘备为什么喜欢哭?怎么看待阿斗?他都能给出基于人设、基于事实的交互和对话。
在我们看来,AGI技术既能用于游戏中,也可以展现出非常强的破圈能力,尤其是陪聊类、交互类NPC,能把历史人物、虚拟人物、二次元人物等任何之前想交往但是无法接触的人,拉到你身边,进行符合人设和事实的交互和对话。
启元世界成立时,slogan就是“Build intelligence, Understanding worlds, Inspire people”。我们的定位是做好AGI的应用技术和产品研发,并要服务任何场景。
我们初心和目标,还是希望AGI能更多启发人、陪伴人,在数字世界中创造更多的乐趣和价值。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则