网友：直接快进到它弹钢琴那天

训练机器人，AI比人类更拿手！

英伟达最新AI AgentEureka ，用GPT-4生成奖励函数，结果教会机器人完成了三十多个复杂任务。

比如，快速转个笔，打开抽屉和柜子、抛球和接球。

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

尤其是转笔这个技能，要知道靠人类逐帧制作动画，也是非常困难的。

最终，Eureka在超过80%的任务中都超越人类专家，让机器人平均性能提升到50%以上。

这一研究吸引了数十万网友关注，有人表示：直接快进到它弹钢琴那天，直接为大众所用。

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

英伟达科学家，也是此次共同作者之一Jim Fan评价到，它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。

目前该项目完全开源。

GPT-4生成奖励策略

在机器人学习中，大模型擅长生成高级语义规划和中级操作，比如拾取和放置（VIMA、RT-1等），但在复杂任务控制方面有所欠缺。

而Eureka的关键所在，就是通过上下文来实现了人类水平的奖励算法设计。

简单来说，就是用GPT-4的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化，由此通过强化学习来进行复杂的技能。

研究人员提出了一种混合梯度架构，外循环运行 GPT-4 来细化奖励函数（无梯度），而内循环运行强化学习来训练机器人控制器（基于梯度）。

主要有三个关键组成部分：

模拟器环境代码作为上下文启动初始“种子”奖励函数。
GPU上的大规模并行强化学习，可以快速评估大量候选奖励。
奖励反射reward reflection，得益于GPT-4评估和修改能力，一步步迭代。

首先，无需任何特定提示工程和奖励模版。使用原始Isaac Gym　（一种GPU加速的物理模拟器）环境代码作为上下文，生成初始奖励函数。

这种无梯度的情境学习方式，可以根据各种形式的人类输入，生成性能更强、符合开发人员愿景的奖励函数。

其次，Eureka在每个进化步骤中都会生成很多候选函数，然后利用强化学习训练来进行快速评估。

以往这种过程需要几天甚至几周来完成，但由Isaac Gym可将模拟时间提高1000倍，强化学习内循环能在几分钟完成。

最后，依赖于奖励反射，Eureka还支持一种新形式的上下文 RLHF。它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。

最终，在29种不同的开源RL环境中，83%基准测试中Eureka都优于人类，并实现了52%改进。

这些环境包括10种不同的机器人形态，比如四足机器人、四旋翼机器人、双足机器人、机械手等。

让研究人员惊讶的是，尤其在处理复杂、高维电机控制的任务上，Eureka表现更好，且与人类奖励的相关性越低。

甚至在少数情况下，AI的策略与人类的策略呈现负相关。

这就有点像当年 AlphaGo的下棋策略，人类看不懂学不会，但十分有效。

英伟达出品

这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。

可以看到的是，近半数研究人员都是华人。

一作是Yecheng Jason Ma，目前是宾大GRASP 实验室的四年级博士生，研究方向是强化学习和机器人学习。

英伟达科学家Jim Fan此次也是通讯作者之一。

咳咳，不过至于网友提到的弹钢琴，Jim Fan自己曾分享过：只需几个简单按钮，AI就能实时即兴生成演奏音乐。

不知道，未来会不会这样的呢？（不过，这研究已经是2018年的了）

论文链接：
https://arxiv.org/abs/2310.12931
GitHub链接：
https://github.com/eureka-research/Eureka
参考链接：
https://venturebeat.com/ai/new-nvidia-ai-agent-powered-by-gpt-4-can-train-robots/
https://twitter.com/DrJimFan/status/1715397393842401440

打赏赞

AI人工智能大集合：教你用文心一言、腾讯混元、Kimi、百川AI、天工AI、GPT3.5、GPT4.0

151 用户在看

马斯克的 Grok AI 聊天机器人因惊人的深度伪造特朗普和泰勒·斯威夫特而迅速走红

145 用户在看

AI能直接生成海报了，我愿称Ideogram为新晋

143 用户在看

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

141 用户在看

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

最近更新

文章目录

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

GPT-4生成奖励策略

英伟达出品

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

AI人工智能大集合：教你用文心一言、腾讯混元、Kimi、百川AI、天工AI、GPT3.5、GPT4.0

151 用户在看

马斯克的 Grok AI 聊天机器人因惊人的深度伪造特朗普和泰勒·斯威夫特而迅速走红

145 用户在看

AI能直接生成海报了，我愿称Ideogram为新晋

143 用户在看

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

141 用户在看

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

最近更新

文章目录

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

GPT-4生成奖励策略

英伟达出品

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章