一探百度如何打造大模型时代的开发者平台

转载自 51CTO技术栈,作者:云昭,嘉宾:张瑞星

大模型时代的开发者平台,不仅要提供 AI 原生能力,还要具备生态打造和商业化闭环能力。

提及“灵境”,人们在脑海中往往会呈现出自己旅行过的风景名胜。然而,当身处在通用大模型“智力涌现”的语境下,对准备在这里探索AI世界的开发者而言,能够提供机遇的“灵境”平台,又会是什么样?

这个问题不好回答,毕竟运营一个开发者平台,涉及产品打磨、规则建立、持续运营等多个维度。而一个新时代的开启,势必有着更多不可预测的变量。

但在此时,我们同样也看到有些先行者正试图给出自己的答卷。比如,在国内率先推出“文心一言”的百度,在今年9月也快速上线了自己的“灵境矩阵”开发者平台(以下简称“灵境”)。

我们了解到,灵境矩阵自9月份发布公测上线以来,整体收到的申请是2.7万左右。其中个人开发者的比例一直呈现上涨的趋势,现在在30%左右。

而且灵境矩阵的不同之处还在于,它不仅是一个重在提供开发能力的平台,也为开发者设计了一套流量变现通路,希望让开发者能切切实实地通过平台获得收益。

这是一套颇为前沿的探索机制,让人好奇,灵境矩阵的推出和设计,都经历了怎样的思忖和探索?

11月15日下午,在第二届“百度搜索创新大赛”期间,我们怀揣着种种有关“灵境”的问题来到百度科技园中,与百度灵境矩阵平台负责人张瑞星进行了2个小时的访问。

大模型时代,“人人可AI”的百度开发者平台长什么样?

灵境的诞生:让大模型成功才是战局关键

“是做一个低成本能开发AI应用的平台去赋能开发者,还是去帮开发者直接接入大模型,通过大模型再赋能到各家企业中?到底选哪个方向?我们经历了较长时间的思考。”面对灵境究竟为何诞生的疑问,张瑞星坦诚回应。

今年年初,在全新的大模型战场上,大多数人都选择做应用,典型如国内的妙鸭相机、国外的Midjourney等。但百度在全线重构自有产品之外,也在思考如何帮助开发者降低成本。

这是一个非常重要的研判。大模型是一个强大的大脑,但是它需要更多手和脚。所以,在今年年初大家的眼光都集中在大模型时,百度已经开始思考如何对大模型进行更多的能力支持。

开发者平台成为了一个选择。如果做类似Midjourney这样的应用,成就的是个体。而做开发者平台,成就的是大模型和生态。如果有愈发多的开发者来到这里,开发出更多的能力,那么大模型也会因此获益。百度的文心大模型,也会进一步赢得新时代的AI战役。

这个判断,也是和众多使用大模型的客户“聊”出来的。

“我们当时也和很多开发者、企业沟通,发现他们在使用大模型的过程中还是有一些具体场景下的痛点,需要插件这类产品去帮助解决。”张瑞星说。

所以,灵境的定位,就是要助力文心大模型这个大脑有更多的手和脚,让文心的服务能力更强。

抛去概念,插件与Agent都是灵境

大模型这个行业,迭代非常快速,市面上一时产生了很多概念:如Bot、插件、Agent等等。但是,纠结这些概念,在日新月异的大模型时代意义不大。

“我们需要有一种机制,能让开发者以足够低成本的方式,接入到大模型的底座上来。这种机制,到底是叫插件,还是叫Agent,还是叫某种API,或是叫其他什么,都只是概念的一种。随着技术的演进,市场的发展,它们最终会逐步规范化、统一化到一类范式上。”张瑞星认为。

但另一个问题是,既然现在看来,Agent更像是未来的范式,插件是不是不重要了?跟Agent的关系又是怎样的呢?

在张瑞星的眼中,Agent可能是未来主流的接入方式,其本身要涉及到几大能力。“Agent首先是对于描述需求的自然语言有理解。第二就是基于理解,对用户的动作和任务,做出有效的规划。同时,针对用户交互的信息,它要长期记忆。”张瑞星进一步解释,在这个过程中,要想满足用户需求,其实Agent需要调用各种各样的tools工具。

所以,插件可能就是Agent的基础,是Agent所需调用的大量工具的基础

比如一款旅游行程规划的Agent,可以让用户快速地制定一个基于个人习惯的私人助理,从而制定旅游行程规划。

但是,这个Agent本身需要调用大量的工具。也就是当它需要查询天气类,调用飞机或火车的时刻表、班次信息,以及是否喜欢靠窗等一些个人偏好,同时还需要去查询目的地城市的好玩景点,是否带娃出行等个性化属性的时候,Agent就会调用很多插件工具,组合型地满足用户的个人需求。

从这个角度上看,各种各样的插件,是支撑起Agent的基座。

“现在插件做的事情就是大量的tools。比如旅游智能行程规划Agent,可能你和它交互完之后,它直接能帮你订票。为了完成这个动作,它需要调一个订票的tools,也就是插件现在在做的事情。插件未来会成为Agent的一个重要支撑。”张瑞星说。

他还打了一个有趣的比喻来形容未来大模型、Agent和插件的关系:“Agent或许是一个小脑,大模型是个大脑,未来可能各家的大小脑容量都差不多。但如果我手上有10样工具,你手上只有一样工具,那我满足客户需求的能力肯定更强。”

为什么一定是灵境?

虽然目前不少大模型公司都在推出开发者平台,但要做大模型时代的开发者平台,不仅需要技术支持,还需要了解用户需求,也要具备生态打造和商业化闭环能力。

而灵境的诞生,始于百度对于大模型格局的前瞻研判,也离不开过去整个技术、产品、生态、商业化体系的积累。

灵境矩阵平台的真正立项时间是7月。从立项到上线测试,再到9月对外发布,灵境只有2个月左右的时间。

张瑞星回忆起当时团队的紧张节奏,简直是分秒必争:“不到30天,8月中下旬内测(邀测)版本已经发布,在9月初,我们在联盟峰会上正式发布了公测版本。”

而光速上线“灵境”开发者平台,除了团队的全力以赴,也与百度过去的长期积累有着莫大的关系。这也是国内不少做大模型的企业所不具备的。

首先,百度原本就积累了很强的开发者生态——不管是原来的站长,还是后来的小程序,这百万站长和三四十万的小型开发者,是百度的天然优势。

市面上不少公司都想做开发者生态,但是原本在这个层面上没有积累。如果在本身没有开发者或者B端生态的情况下硬造一个平台,除非企业有着很强的布局能力,否则即便做成平台,收益也会很低。

再者,对比有开发生态的大模型玩家,百度同样拥有着丰富的“流量场景”。

这也让灵境在市面上的定位更具差异化——它不止是一个纯开发平台,而是一个覆盖“开发+运营+商业化”的一体化赋能平台。

对比之下,国内外许多插件开发者都面临着“既没有生态,有没有流量场景”的困境。比如在OpenAI的生态中,有一个金融领域的插件开发者表示插件做完了,在ChatGPT上却很少有人去问金融问题,会导致他的插件调用很少,收益也很小。而没有流量分发的开发者平台,很可能是无效的。

张瑞星解释:“为什么我们在定位上没有只写‘开发’两个字?因为灵境包含了开发、运营以及商业化的部分,只不过初期,开发肯定是最重要的。”

他向我们透露,百度此前已经部分打通了分发场景,并预计在第四季度彻底打通百度搜索和文心一言这两大分发场景,“像地图、文库等百度的其他主要分发场景,灵境都在接入。所以,很快就能看到开发者不只可以在灵境上开发,还会有比较适配场景的流量涌入。预计在今年Q4或者明年Q1,灵境会布局商业化的能力,允许一些插件开发者在对应的场景上进行流量变现。”

那么,假如对手也有着这两方面的优势,灵境的支撑又是什么?

答案是大模型自身的能力。而在国内,百度对于大模型的投入是非常长期且巨大的,效果层面也直追国际水平。

前瞻的魔鬼细节

功能的完善程度和易用性,往往在初期就能决定一个产品的成败。

那么,在最初搭建的开发模式层面,灵境相较ChatGPT插件又有哪些不同?通过张瑞星的讲述,我们感受到,魔鬼往往藏在细节之中。

第一,灵境采用了最新的可视化开发编排模式,通过拖拽的方式,可以在一定程度上淘汰Langchain这种中间平台,降低大模型应用的开发成本。据了解,百度灵境矩阵其实在7、8月份的时候就采用这种比较领先的方式,甚至比OpenAI要早。

第二,在接入层面上,灵境支持了多种方式。像ChatGPT,本身更多支持API的接入,但灵境支持的数据接入类型更多,比如本地上传,数据库、API等,能力型的接入都覆盖。此外,应用类的接入也是灵境的一大特点。一些能力较强的开发者,如携程,愿意来灵境做一个类似于智能应用,未来这个智能应用也可以接入到大模型里。“这三种模式我们都支持接入,所以从接入的方式上比Plugin更丰富。”张瑞星表示。

第三,灵境在顶层设计上,把插件的分发设计成了一体多端的模式。并且,这一模式Q4就能完整落地。

“所谓一体多端,就是基于百度的流量场景的特性,设计兼容移动端的各类APP和PC浏览器在内网页搜索的模式。”张瑞星说,有了一体多端的分发能力的设计,未来灵境上的插件就能原生地植入到原本的App中,甚至包括自己的小程序里,这是一个良好的基础,也是ChatGPT-Plugin不能达到的。

具备众多差异化特点,目前灵境所覆盖的领域也比较齐全,除却法律、情感、办公创作、商品评测等,还有很多插件都在开发和上线中。现在灵境中使用较多的是办公创作类插件,因为这仍是眼下大模型应用的最主要场景。

我们还注意到,之前法律Bot、旅游Bot两款灵境的应用很早就得到了开发者的好评。

从这两类Bot的打造方式中,我们也可以看出灵境矩阵的运作细节。

首先,针对这两个行业,百度成立了专项小组。

比如法律Bot。百度的法律部门在百忙中提供了很多专业的律师来为Bot校正,逐字评估回答的准确性。“看似我们在产品上投入不大,但整个团队加起来,每个小方向的投入基本都在几十人左右,这里面包括了策略、评估的团队、包括了相关专业的团队。”张瑞星介绍。

旅游Bot则不止是灵境团队的付出,更是携程团队和百度大力协同的结果,“相当于我们有一个很紧密的兄弟团队也做了大量投入,和我们联动做这件事情。”张瑞星补充。

此外,领域对齐也是一个大模型火热话题。

张瑞星分享了在做法律Bot训练过程中的经验,“在大模型训预处理、预训练的过程中要经过反复的策略调整。比如同样一个问题,你回答成这样或者回答成那样,哪个到底是对的、哪个是好的,它需要有一个正反馈。在这个过程中,灵境有大量的评估团队、样本生成的团队,去辅助大模型的训练。”

这里有两个点,首先是整个团队从不懂到懂的过程中,其实需要和内外部专业人士频繁沟通。“所有市面上能聊的我们都聊了,而且律师团队还会给产品团队做培训。团队还引入了专业人士,数据标注这一环都招的是有法律背景的人。”他告诉我们。

再一个,和专业机构的合作也能让产品效果得到飞跃式提升。我们了解到,灵境平台上法律方向的内容,也得到了中国司法大数据研究院的支持。

“当你进入到深水区的时候,进入到这个垂直领域的时候,你的策略和模型的效果,对整个‘法言法语’的理解,就会上一个很大的台阶。”张瑞星如此总结深扎垂直领域的感受。

未来的灵境

“人人可AI”是灵境秉持的理念。这是一个长期的目标,需要持续耕耘才能实现。

我们了解到,未来一年内,灵境将会持续发力三个重点方向。

首先,灵境平台会持续地降本,这是灵境的内核,也是行业的趋势。AI时代的开发者,不会仅是传统意义上只具备专业研发能力的从业者,还有越来越多的普通人,也对此跃跃欲试。而要让这件事真正落地,降低开发者的成本,会是重中之重。

Agent开发范式的出现,给了这件事转机。

在Agent的开发模式下,通过代码、开发API、Prompt的方式创建功能,会带来极大的成本降低空间。

“成本降低到什么程度?有可能未来整个灵境平台就是一个Agent,使用者进来只需要敲字:‘我想创建一个什么东西’,或者‘我想再外挂一个数据库’,只需要通过自然语言交互的方式就完成了,这是我们的一个明确路径。”张瑞星表示。

而这同样是一个新的飞轮。这个模式,会让开发门槛降下来,笼络更多的开发者,同时让有开发实力的人开发出更好的东西。

张瑞星也详述了灵境持续降本的一些计划。

最直接的方式是把开发者的开发过程压缩,让大模型直接帮开发者把过程转化成Prompt,做好对应的Agent。

此外,灵境还会提供开发者不少资源。“灵境去赋能大家更多的算力、赋能更多的免费Token。此外,灵境还会有一些经济上的赋能或者支持。比如,在服务器层面、软硬件条件层面,如云的服务器等,我们对很多个人开发者或者企业开发者都可以免费开通。”张瑞星补充。

第二个重点攻坚方向涉及商业闭环。也就是说,灵境接下来还要赋能开发者足够的经营能力。“这条线我们认为依然是百度差异化的核心优势。我们真正能给开发者带来收益,而不是讲空话。”张瑞星强调,“开发者做出了好的东西,灵境还希望帮他推出去。”

在这其中,灵境一方面会帮助开发者真正能获取流量和用户,同时也会提供各种各样的商业化赋能。另一方面,对于缺乏C端诉求的开发者,灵境也会打造出“D2C”、“D2D”的模式,“其他开发者可以把你开发的东西买走或者直接调用。”张瑞星表示甚至还可能会推出“D2P”的商业模式,即开发者可以为平台有偿做一些精品化的东西。

当然,为了保证用户体验,灵境对于插件的上线审核有着严格的要求。某个插件上线,就意味着要通过文心一言、百度搜索等产品,和用户发生交互。在这种状况下,灵境对于它的准确率、触发准确率和回答的质量,都要求较高。为此,灵境团队有着严格的上线评测标准,以免给用户造成不好的使用体验。”

当然,灵境的持续打磨之路,同样有着各种各样的挑战。最直接地,是模型和Query,再和最后执行动作的调优。

对Agent的开发范式来说,原来的网页分发那套逻辑不再适用了——任何一个网页、任何一个网站未来都可能会被定义为一个小的Agent,未来的搜索会变成调用各种各样Agent的模式。

比如网站Agent、App Agent、数据Agent,都是不同类型的Agent。那么,如何将这个过程智能化、自动化,达成精准识别调用Agent并分发的效果,不仅要优化产品,还要在这个过程中形成B、C一体的策略飞轮、数据飞轮。

这需要让大模型有很强的判断能力和识别能力,以及与Agent之间的交互能力,才有可能做到。这同样是灵境后续的一个核心方向:打造一个搜索的AGI+一个通用的Agent。

这显然不是一件易事,但对灵境矩阵来说,更大的愿景还在路上。

在百度的设想里,灵境未来也会构建一个类似于GPTs这样的store,“但和移动时代的App Store不同,灵境能构建真正适合开发者的构建范式,从而创作出类似领域下的新东西。”在张瑞星看来,构建这样一个平台,是让创作者激发更多想象力,让整个Agent生态更加繁荣的必经路途。