LLM+教育AI=?

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

大模型的颠覆和变革,还只是开始。

ChatGPT一炮而红,重塑搜索、办公协同等多个场景和行业后,在线教育,被视为最重要的垂直场景——毕竟大语言模型展示出的能力,正是之前在线教育、AI老师所亟需的。

而且这种趋势已经开始,背靠大模型相关的在线教育应用,已经率先在海外火爆。

看过来!让GPT化身二次元美少女AI家教来讲数学题的方案,每步都有解法,再不用担心看见参考答案的“略”字:

人美声甜GPT,数学题哪里不会讲哪里

基础到某个三角函数的定义,复杂到不同的解题方法与技巧,都能得到答案:

人美声甜GPT,数学题哪里不会讲哪里

这就是最近在海外火爆的AI解题类应用,背后App已经在App store商店教育分类板块刷榜。

这种火爆在情理之中:背靠LLM,加上二次元画风颇似《原神》——不得不说,真实拿捏住了流量密码。

在这之前,在线教育行业的主流“AI家教”,背后的本质只是推荐算法,换句话说,就是推荐录好的教学视频或解题方法,但无法针对视频和方法中的某些细节给出解答

而现在,LLM涌现的解题准确性和语言理解能力,开始对之前可望不可即的技术实现带来了突破——不是在线教育面临重塑,是整个教育产业正在面临重塑。

背后技术原理:GPT+在线教育=?

二次元美少女家教身后,就是LLM在AI自动解题方面发挥着作用。

基本思路是在原有流程的一头一尾,接入LLM,与原有流程中的CLM(可计算语言模型,Computational Language Model)形成Joint Model模式。

CLM,相比其他AI模型展现出不错的逻辑能力,不过它在语言理解能力和输出等方面,遇上如今包括GPT-4在内的大语言模型还是相形见绌。

Joint Model模式,就是让LLM提供NLP能力CLM提供逻辑推理能力

人美声甜GPT,数学题哪里不会讲哪里

也就是说,现在的整个AI解题的过程是这样的:

题干输入——LLM处理文本——CLM解题——LLM形成文本——讲解输出

二者结合,能完成的推理任务比单个模型处理的更复杂,并在必要时收集相关数据。

由是,AI家教能很好地理解题干内容,从而提供讲解。

在两端接入LLM之前,这条AI解题流程也能利用CLM,提供AI家教所需的数理逻辑和推理能力。

主要依靠CLM对文本信息进行数据升维,把一维文字信息进行高维展开,让机器在同一时间接受文本背后诸如实体、关系、参数、知识等多维度的隐含信息,理解题干背后最终想要求解的东西是什么。

再对CLM进行“部分不召回”设定,即“不能保证100%做对的题,AI不会输出结果”,从而保证AI家教的讲解和最终答案一定正确

人美声甜GPT,数学题哪里不会讲哪里

这也能解释为什么现在的Joint Model模式中,对LLM的应用重点在NLP领域,而非逻辑和推理能力上——

GPT-3.5起,大模型毫无征兆地涌现出数理逻辑和推理能力,但它们既不稳定,也不绝对可靠,AI家教无法在接入后直接落地使用。

与其执着于纠正LLM的“胡说八道”,不如转而重点利用它相对稳定发挥的NLP能力。

二次元美少女AI家教背后是谁

有意思的是,这位AI家教背后还是一家中国公司。

来自悉之智能,2017年成立,核心创始团队都来自清北。

创始人兼CEO孙一乔,清华大学电子系2017届学生,在校期间参与搭建清华XLP超限学习团队,并深度参与校内某院系课程体系深度改革,带领数十人搭建了清华大学首个自适应学习引擎。

联合创始人兼CPO代佩霖,北京大学金融系毕业,曾入选福布斯亚洲30 under30;算法合伙人林东生,也毕业于清华大学电子系,是悉之智能自研CLM背后的发明者之一。

人美声甜GPT,数学题哪里不会讲哪里

几位合伙从一开始杀入AI教育行业,就主攻自动解题

入局之初,还算赶上了个好时候,加上是国内第一家做出多模态解题家教的公司,成立次年就拿下新东方旗下“东方新创” 的1000万元天使轮融资。等到2020年,公司已完成近亿元A轮融资。

直到2021年经历双减风暴……

好在双减来临的同月,仍然顺利拿到2000万美金的A+轮融资,投资方是启明、经纬和真格等一线VC。

但是,公司业务重心不得不开始向海外市场转移。

等到在新的市场站稳脚跟开拓市场,涌现逻辑能力的ChatGPT却突然现世,突破了业界的传统认知,也打乱了他们的阵脚:

我们原本以为AI不会这么快出现逻辑能力。

不仅低估了OpenAI在GPT系列上的进度,还低估了GPT涌现出的能力的强度。

早些时候,谷歌用一个36B的LaTeX数据集Fine-tuning PaLM540B,在MATH上取得了50分。同一测试集上选出CLM覆盖的高中数学部分,悉之智得分在70分左右。

“比谷歌最引以为傲的PaLM得分高,也高于市场上的Photomath等产品,包括ChatGPT3.5最开始的解题能力得分也低于我们。”孙一乔边笑着复盘边挥舞胳膊,外化他的兴奋。

人美声甜GPT,数学题哪里不会讲哪里

结果GPT-4光速出现,出场即碾压所有玩家的解题能力。

但他好像并不沮丧,“这一波就是全世界看OpenAI装逼嘛,惊得谷歌的下巴都掉下来了”。孙一乔的逻辑里,OpenAI虐了全世界,悉之智能的AI又能虐其他人,“没什么不值得骄傲的。”

他还笑着补充,自家AI能力也不是为了刷榜好看,主要是能落到教育AI行业应用,这才是“至关重要”。

孙一乔很爱笑,熟悉他的人都这么说,尤其是在谈到GPT系列对传统带来颠覆性影响和可能性的时候。

3月底,欧盟批准谷歌收购了我们在国际市场上最大的竞争对手,也是传统解题公司的代表——PhotoMath。

每每提到这点,孙一乔都嘴角上扬,难掩兴奋,要埋下头用双手捂脸数秒来平复心情。

PhotoMath纳入谷歌麾下,有了技术、资金靠山,也代表着PhotoMath的一条快读通道被封死了——这家数学应用程序公司接入GPT-4及后续GPT系列API的可能性几乎为零。

但是GPT和CLM的组合,可以让解题能力继续突破。

这也是孙一乔“不沮丧”的数据支撑。在一个GPT-4解题率为82%的测试集上,悉之最新fine-tuning GPT的Joint Model最新解题率在92%。

究其原因,他的解释是Joint Model天然包含大量解耦好的NLP任务,最新工作中,团队把之前基于Bert的CLM换为fine-tuning后的GPT,将GPT作为预训练模型,将CLM作为逻辑校验模型,继续提高解题上限。

人美声甜GPT,数学题哪里不会讲哪里

孙一乔还表示,LLM不只提升AI家教背后模型的NLP能力,对多模态交互也有不少帮助

现在的AI家教形象,比以前声音更好听,形象也更好看。在接下来的计划中,对话交互能力也将得到增强,在授课过程中随时提问,都能得到AI家教的解答。

计划中,旗下AI家教还会拓展数学之外的学科版图,也将开启新一轮的融资。

人美声甜GPT,数学题哪里不会讲哪里

深陷双减风暴之后,教育底色的公司们都逐渐找到了新的打法。

改弦更张的,如新东方,在直播领域大杀四方;继续探索在线教育之路的,悉之智能利用LLM提升解题能力,优化多模态交互,据悉,猿辅导也已经用AIGC在传统教育领域寻找新的机会。

LLM能力应用在教育领域后,不知道继续深耕在线教育的这些公司里,谁又是新一轮的最大赢家?