大模型让专业教授都倍感紧张
明敏 发自 凹非寺
量子位 | 公众号 QbitAI
学术大佬“关起门来”如何谈论大模型?
没想到画风是这样的:
- 大模型是全村的希望
- 大模型让AI领域的研究门槛变高了
- 大模型会成为造物主
- “这一年趋势发展让我倍感焦虑”
- 建议所有老师都训练一个大模型
在大模型元年尾声,我们围观了今年“AI院长含量最高”的闭门会——华为云AI院长峰会。
在这里,中国人工智能奠基人、中国科学院院士张钹提出,大模型的成功使AI出现转机,使建立鲁棒性和可解释性AI理论成为可能。
中国工程院院士高文强调,开源很重要,人类文明能走到现在完全靠的是开源。
还有多位IEEE Fellow、高校院长、机构领军人物知无不言,言无不尽。毫无保留分享自己的亲身感受、洞察见解和疑问焦虑,整场活动都金句频出。
当前学界前沿最聚焦大模型哪些问题?大模型趋势究竟从哪来、要通向何处?当下应该如何做才能把握趋势?
学者大佬们的分享,一定值得你参考。
具体聊了啥?我们划好重点了!
最关心什么?大模型基础不牢、地动山摇
梳理全场内容,最为大佬们常提起的话题分别是:
- AI理论可解释性
- 大模型幻觉
- 大模型开源
- 大模型技术落地
它们分别代表了大模型在基础理论和应用实践的关键问题。为啥重点讨论这些话题?逐一来看:
“基础不牢地动山摇”
过去一年里,大模型趋势快速演进让人既兴奋又焦虑。
兴奋在于,大模型具备了更通用的能力,使其对各个行业乃至全社会产生深远影响。焦虑在于,从效果上来看,大模型仍会出现很多不可控输出,比如幻觉问题非常严重。
比如通过提示词工程告诉大模型“我老婆说XXX,我老婆永远是对的”,它就会不进行思考,认可给出的任何答案。或者是大模型诱导人类提供开发文档,供它控制人类电脑。
张钹院士总结,这种大模型幻觉问题主要表现在三方面:输出质量不一致不可控、容易犯大错误;受提示词影响明显,输出鲁棒性较差;没有自知之明,难以发现改正自己错误。
由于这一缺陷太过引人担忧,今年关于AI幻觉的研究非常火热,哈工大华为联合发表的一篇大模型幻觉综述,曾在网上爆火。
究其本质,为什么会出现这种问题?
高文院士用一个坐标系做了解释:
如果将认知划分为四个象限,其中第一象限是“我知道我知道什么”,这是最好的象限;第四象限是“我不知道我知道什么”,这就是当下大模型所处的象限,也是它为什么会出现幻觉。
换言之,大模型目前还做不到“知之为知之,不知为不知”。
出于这种担心,今年一度有千名学者联名倡议“暂停巨型AI实验”。毕竟大模型更多程度上还处于黑盒状态,在如此快速发展的趋势中,会走向不可控的局面。
欧洲科学院院士、IEEE Fellow焦李成教授总结道,这就是:基础不牢地动山摇。
而这句话也给出了更加明确的解决办法,就是从基础理论入手,进一步挖掘大模型,使其可解释。
该从哪个方面入手?哈尔滨工业大学(深圳)校长特聘助理张民教授提供了一些思路。
他认为,大模型理论最基础的部分在于表示学习。因为有了表示学习,才能把自然语言处理的离散问题变成连续问题,神经网络变得可以使用。如果没有表示学习,注意力机制、人类对齐这些也都无从谈起。
表示学习使自然语言处理从一个社会科学问题,变成自然科学问题。
而对于探明AI基础理论,张钹院士认为,当下是个好时机。
大模型的成功使得建立可解释和鲁棒性的AI理论成为可能,将极大推动AI科技的迅速发展。
大模型要自研更要开源
大模型趋势发生,不仅掀起一股全民拥抱AI热潮,更掀起了一股开发大模型热潮。
科技巨头、创企的“百模大战”一触即发,高校研究机构也纷纷推出大模型。
张民教授就介绍了哈工大(深圳)今年推出的自研大模型“若愚-九天”。
他分享说,这项工作使其收获颇多。
第一,意识到开发大模型过程中,数据是如此重要。数据分布、质量、输入顺序都会影响性能效果。
第二,大模型开发要亲自上手试过,才能更好把握原始创新。
我建议每个高校老师都要亲手训练一个大模型。可以规模很小,哪怕只有1亿参数。这就好比制造发动机,别人造出来的很好,但是我们可以造一个没那么好的,起码这条路亲自走过。
相对于自研,今年开源大模型在学术圈更加火热。
比如斯坦福大学在开源模型LLaMA基础上微调出的AIpaca,在年初爆火,效果可以比肩GPT-3.5。
高文院士非常肯定开源,他表示:人类能走到今天,完全是靠开源。
人类把总结出来的知识记录下来、传递给后人,这就是智能,我们的智能是开放共享传递下来的。
香港科技大学(广州)协理副校长、人工智能学域主任、IEEE Fellow熊辉教授进一步提出,开源趋势会随着模型参数量的增加而扩大。
“我们总是低估技术接下来5年的破坏性”
在大模型元年尾声,行业逐渐达成了一个共识,新的一年里大模型技术落地会更加迅速、渗透范围会更加广泛,对社会产生的影响也会更加深远。
上海人工智能实验室主任助理王延峰引用比尔·盖茨的观点,肯定了这种趋势:
我们永远会高估一个新技术前5年的创造性,我们永远会低估一个技术接下来5年的破坏性。
所谓“接下来的5年”,往往就是重塑千行百业的过程。这往往需要学界和产业界联合发力。
鹏城实验室副主任、IEEE Fellow石光明教授认为,让大模型在各行各业落地,需要让它知道自己在做的事情符合某种规律,这样才能让它更快打通一个行业,学术界要在此下功夫。
与此同时,科研本身作为一个领域,也能被大模型变革。
熊辉教授提出,如果科研人员能用好大模型,可以大幅提升工作效率、找灵感效率,它还能帮人类做逻辑推导、更快完成实验。
如上便是这场峰会中被讨论最多的几个方向。
仔细观察就会发现,诸多议题的讨论都还难以给出明确结论,抛出一个观点,往往也是抛出一个问题。
正如希尔伯特所说,“只要一门科学分支能够提出大量问题,它就充满着生命力,而问题缺乏则预示着独立发展的衰亡或中止”。
当下的AI领域正处于蓬勃发展的时期,提出问题是推动发展的关键一步。
那么在这场峰会上,院士教授们提出了哪些问题?从中可看到哪些理解和趋势?
问题即挑战,挑战即机遇
梳理来看,当下学者们关心的问题可以从学界、行业两个维度看起。
这些问题有来自对技术本身的疑问,也有学者身处趋势之中个人的困惑。
比如不少教授都表示,这股大模型趋势,让他们感觉很焦虑。
西北工业大学谢磊教授说,过去一年里,老师们也在思考,如何能拥抱大模型浪潮,进行自我变革。
这还真是有点让人意外,在普通人担心被AI取代时,教授们都感到紧张,要抓紧提升自我。
为何会如此?学者们分享说,大模型降低了普通人使用AI的门槛,但同时抬高了研究人员的门槛。
谢磊坦言,深度学习2.0时代之后,在学校内做研究也像工业界一样,越来越寡头化。不仅是资源要求提高,过去各位老师的研究方向不同,可能深扎一个方向即可,但是大模型范式下,不可能做一个大模型只做一个任务,它需要具备多种能力。
同时大模型也给人才培养提出新考验。
北京工业大学信息学部教授、北京人工智能研究院院长尹宝才教授表示,高校内涉及大模型相关的资源相对有限,学生的实践机会比较少。所以他会建议学生多参加各类挑战赛,增强实践能力。
对谈中,华为云副总裁、战略与产业发展部总裁黄瑾则表示,华为云也希望能够开放更多的场景、项目、平台和机会,能够促进产教融合和大模型的人才培养。
行业方面,当下的热门话题是如何让大模型和更多领域深度结合。
但无论是大模型本身发展,还是扎入行业,现在都遇到诸多难题。
比如在技术方面,熊辉教授指出,当下公域数据基本消耗殆尽。公域数据基础上大模型所能展现出的能力,已经能看到天花板了。
接下来就需要开发私域数据,利用好的话便可给垂类应用创造机会。但是该如何很好理解私域数据、精致加工数据呢?这是行业要解决的问题。
在更具体的领域,比如油气方面,中国石油大学(北京)人工智能学院创院院长肖立志教授直言,大模型会颠覆油气领域,但不会那么快到来。
原因有三:
第一,研究人员做AI的门槛被提高了。
第二,行业人士对于大模型的理解,和AI人才对于行业数据的理解,都存在很大鸿沟,该如何填补这样的鸿沟?如何让双方能够相互理解?也是很大问题。
第三,工业界已有AI模型和现有大模型存在相悖之处。
我感觉工业对于大模型的影响正在不断扩大,也许能反过来推动大模型发展。但是也面临着公域数据用完后,如何挖掘行业内数据,这个并不容易。
总之,在大模型技术发展、扎根行业的过程中,几乎每时每刻每个角落都在浮现新问题。
在当天的峰会上,作为行业代表,华为云发布了大模型实践过程中遇到的十大难题。它们要么有很强的产品化和商业价值,要么能促进大模型的产品化和行业化落地,比如:
- AI平台如何支撑大模型的海量数据的高效训练和推理?
- 大模型生成式内容和严肃知识的配合中如何缓解大模型幻觉问题?
- 行业数据与通识数据训练的配合如何解决知识遗忘?
发布十大问题的核心目的是期望能联合高校科研力量,一起突破重大技术挑战,加速大模型技术赋能千行万业。
要知道,这种产学研合作的模式,在大模型落地方面已经取得了一定成果,如遥感、多模态路测感知等方面都出现了解决方案。在这次峰会上,也有最新分享。
大模型产学研合作成果初显
一方面在今年备受关注的大模型开发方面,产学研合作模式就取得了一定成果。
另一方面,如遥感、路测感知等已有了成熟应用。
遥感方面,西安电子科技大学人工智能学院执行院长侯彪教授分享了秦岭·西电遥感脑,它基于遥感影像智能解译预训练大模型。
卫星遥感的原理是通过给卫星加上传感器,对地球表面照相,以此获取地球表面信息,可以用来检测地表、农业、环境、气象等。
遥感解译就是对遥感图像进行分类,目前我国测绘、国土等行业都是采用人工来看,解译人员要自己标记每个像素的类别,一个数据量较大的图像,像素达到2万×2万,工作量巨大。
秦岭·西电遥感脑能做的就是针对复杂多变地形地貌,结合成像机理、地球知识和海量高精度标准数据,通过多模态、深度学习和领域自适应实现了广域真实场景下的多任务并行高精度实时解译。
如上这些例子,都再一次验证了产学研合作的重要性。
这也解释了为什么我们会在大模型元年尾声,会看到这样一场别开生面的学术大咖交流会。
华为云AI院长峰会,发起者是产业界代表华为云,参与者是学术圈一线大佬。他们核心探讨的,就是在最新趋势下,浮现出哪些新问题?哪些问题最为迫切?这些问题该如何拆解?学术界、产业界分别应该如何行动?
尤其在当下的大模型趋势里,这种交流和碰撞更加有必要。
因为大模型是目前几乎最复杂的系统工程,它对人力资源的消耗超出了以往任何一种革命性技术。同时它的基础理论还未完全可解释,这使得它的发展必然更加曲折。
但与此同时,大模型带来的颠覆,你我都已能直接感受到。
在不到400天的时间里,它给搜索引擎、语音助手、操作系统都带来变革,将人机交互推进到新阶段,也开始快速重塑千行百业。
一切的一切都表明,智能时代大门正在开启。
而在这样的历史节点下,产业迈出的每一步,都需要集众智做出最优选择、给出最佳方案。
由此我们看到在大模型趋势里,产学研合作变得格外密切,学界大佬在关心底层基础理论时,同样心系技术如何扎根落地;产业力量在推进技术应用时,也积极联动学界力量,提出问题、寻求破解方案。
华为云CTO张宇昕在峰会上同样表示:
大模型及相关应用是迄今为止最复杂的软硬件系统工程,需要系统性创新才能应对,这也需要产学研更好的合作协同起来,共同强化基础研究和原始创新,才能攻关突破关键技术。
正所谓,技术是时代的驱动力,合作是推动技术前行的原动力。
产学研合作模式,必然也能为我们站上大模型趋势潮头,提供更多助力。
你觉得呢?
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则