商汤绝影智能汽车事业群总裁王晓刚：通用人工智能下的智能汽车

商汤科技联合创始人王晓刚教授发表《通用人工智能下的智能汽车》主旨演讲，为人们描绘了通用人工智能（AGI）赋能人机共智的美好未来。

“通用人工智能将打造智能汽车的‘智慧飞轮’，让人、车和模型之间产生更多有效交互，打通三者之间的互动闭环，让AI更精准地理解人的需求，带来更好的驾乘体验。” 商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚在2023中国电动汽车百人会智能汽车论坛上说。

上周，由中国电动汽车百人会主办，清华大学、中国汽车工程学会、中国汽车工业协会、中国汽车技术研究中心、中国汽车工程研究院协办的2023中国电动汽车百人会论坛在北京成功举办。商汤科技联合创始人王晓刚教授受邀出席会议，并发表《通用人工智能下的智能汽车》主旨演讲，为人们描绘了通用人工智能（AGI）赋能人机共智的美好未来。

以下为王晓刚教授演讲内容梳理。

通用人工智能引发新一轮范式革新

新年伊始，ChatGPT 、GPT-4 掀起了通用人工智能的热潮，这是一场新的技术革命。非常有幸与大家一起探讨通用人工智能和多模态大模型为智能汽车带来的机遇和挑战。

2022年以来，新的通用人工智能开始以更加高效的方式解决海量的开放式任务。它更加接近人的智能，而且能够产生有智慧的内容，也带来了新的研究范式——基于一个非常强大的多模态基模型，通过强化学习和人的反馈，不断解锁模型的新能力。

那么，什么是通用人工智能？它与现有的人工智能系统有哪些区别？

其实，现有的人工智能系统也能够接收多模态数据，但输出的任务都是事先定义好的，若为系统增加一个新任务，就要对其进行重新设计，还要采集大量样本。

而在通用人工智能时代，人们通过输入提示词和多模态内容，便可生成多模态数据。更重要的是，它可以用自然语言方式生成任务描述，以非常灵活的方式应对大量长尾问题和开放性任务，甚至是一些主观的描述。

比如，在做一些特定场景的检索任务时，一个现有的人工智能系统可能有几十个标签。商汤做过实验，如果用自然语言描述可能会有1万多个词，通过它们的组合去描述各种任务，实际上是非常强大且灵活的。

举个例子，给定一张自动驾驶场景中的图片，判断是否需要减速。通过现有的 AI系统，首先要做物体检测，然后在物体框里做文字识别，最后做决策，整个过程每一个模块都是事先定义好的任务。

而在通用人工智能技术下，给定图像，人们只需用自然语言去问图像问题，比如“这个图标是什么意思？”“接下来应该做什么？”模型本身不会发生变化，输出端通过自然语言的方式给出一系列逻辑推理，最后得出结论。比如，它会告诉你“限速30公里“”前面100米是学校的区域“”有小孩“”应该小心驾驶“”需将车速降到30公里以下”等操作。

可以看到，这都是一些开放式的新任务，可以对人工智能系统带来非常大的变革。

从“数据飞轮”到“智慧飞轮”

通用人工智能还有非常强的一点，它能够产生内容，而且是有智慧的内容。

自动驾驶/智能汽车领域有“数据飞轮”说法，即模型能够加持终端，采取高质量的数据对模型进行更新，然后再从终端提升数据的量和质。

通用人工智能时代则会产生“智慧飞轮”，人和模型之间可以产生互动。当人们为模型输入Align With Human Intention时，虽然模型很强大，但它并不知道人们需要什么样的能力，不过通过人的反馈，它就能更好地理解人需要它展示什么样的能力而去解锁更多的技能，同时模型为人输出有智慧的内容，从而激发人们更多的创作智慧，随后又会产生新的“智慧飞轮”。