不依靠知识图谱等“外挂”实现

鱼羊萧箫发自凹非寺
量子位 | 公众号 QbitAI

鹅厂的通用大模型，终于来了！

就在今天，腾讯千亿参数大模型混元正式亮相，号称全自研，具备3大特点：

中文创作能力强，同时具备复杂逻辑推理和任务执行的能力。

有意思的是，腾讯表示，在今天正式发布大模型之前，不少人已经在腾讯相关APP中用过混元大模型的能力了。

例如，早在谷歌云发布AI相关的会议总结产品之前，腾讯会议早就上线了基于智能录制的智能纪要、智能章节、发言人回顾等能力。

这些个功能背后，正是混元大模型的能力。

既然如此，这个在腾讯产品中“摸爬滚打”出来的大模型究竟长啥样？

我们已经get了混元大模型的测试资格，这就来试一试它的真实水平。

混元大模型实测效果如何？

混元大模型，现在可以在微信小程序上申请体验，也就是混元大模型的Chat版。

腾讯表示，混元大模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力。

既然如此，我们就挑几个有代表性的方向，来看看它的回答效果。

逻辑推理

先来初步挑战一下脑筋急转弯benchmark，小明妈妈的三个孩子中，老三叫什么：

混元成功推断出了“小明”的名字，看起来脑筋还是比较活络的。

再来测测弱智吧benchmark，“午餐肉可以晚饭吃吗”。

它真的，我哭死，关心我饮食健康的程度已经超过肥宅本人了。

数学能力

腾讯还现场测试了一波模型做数学题的能力：

买一杯咖啡，上午喝了一半，下午又喝了剩下的一半，还剩30杯，一共买了多少杯？

腾讯混元大模型会对这个问题列出一个方程，并得出了120杯的正确答案：

我们另外找了道数学题来测试混元的能力。

设置的单位换算陷阱，混元巧妙避过，表现不错。

那么，号称“中文能力很强”的混元模型，面对中文难题的表现又如何？

中文理解

先用“一把把把把住了”这种传统段子，来测测模型的理解能力。

一开始混元模型想歪了，以为这是个拟声词：

提示分析动名词之后，答案好了不少。尽管分析过程还有瑕疵，但混元助手这次能够正确理解这句话的意思了。

其他实用工具

另外，我们还浅测了一下混元助手内置的实用工具。

目前能看到的工具有30+，既包括调研问卷、会议纪要、代码生成器等工作提效利器，也包括“起名大师”这种生活助手。

让混元助手的代码生成器生成一段扫雷代码，效果是酱婶的：

具体代码如下：

import random

def create_minesweeper_board(height, width, num_mines):
    board = [['0' for _ in range(width)] for _ in range(height)]
    mines = set()

    while len(mines) < num_mines:
        row = random.randint(0, height - 1)
        col = random.randint(0, width - 1)
        if (row, col) not in mines:
            mines.add((row, col))
            board[row][col] = 'X'

    for row, col in mines:
        for r in range(row - 1, row + 2):
            for c in range(col - 1, col + 2):
                if (0 <= r< height) and (0 <= c< width) and (board[r][c] != 'X'):
                    board[r][c] = str(int(board[r][c]) + 1)

    return board

def print_board(board):
    for row in board:
        print(' '.join(row))
    print()

def play_minesweeper(board):
    while True:
        print_board(board)
        row = int(input('Enter row (0-{}): '.format(len(board)))) - 1
        col = int(input('Enter column (0-{}): '.format(len(board)))) - 1
        if board[row][col] == 'X':
            if random.random() < 0.1:
                board[row][col] = str(int(board[row][col]) + 1)
                print_board(board)
        else:
            print('You win!')
            break

if name == '__main__':
    height = int(input('Enter board height: '))
    width = int(input('Enter board width: '))
    num_mines = int(input('Enter number of mines: '))

    board = create_minesweeper_board(height, width, num_mines)
    print_board(board)
    play_minesweeper(board)

还贴心地给出了代码解释：

实测是可以成功运行的。只不过在未经调整的情况下，生成的游戏板是明码doge。

除此之外，腾讯还给出了一些指令集模板，如果不知道怎么“调教AI”，一键复制就能搞定生成：

总结来看，虽然混元的大模型还需要继续优化，但实用能力也不少，一些功能可以直接用到工作中。

这背后是否有一些与众不同的新技术？

不依靠“外挂”降低模型幻觉

在大会上，腾讯也“剧透”了一下背后的架构和技术细节。

作为一个千亿大语言模型，混元同样基于Transformer打造，具备文本创作、工作计划、数学计算和聊天对话等能力。

训练上，混元和其他大模型的流程“大差不差”，也同样包括大规模自监督预训练、有监督精调、强化学习优化三个步骤。

数据上，前后一共用了超过2T tokens的语料对大模型进行训练，来提升模型的知识和逻辑能力，目前训练数据截止到今年7月，还会随着升级不断更新。

为了提升模型的可靠性和成熟度，混元大模型主要从四大方向进行了技术自研。

首先，是在降低幻觉上。

腾讯表示，目前业界的做法主要是通过“外挂”的方式，也就是通过搜索、或知识图谱增强等方法，来辅助降低模型的幻觉。

但在实际应用中，这类方法存在很大局限性，因为大模型自身回答的真实性并没有增加，本质上依旧存在风险。

为此腾讯自研了一种基于探真的方法，在预训练阶段去优化大模型的目标函数，成功将大模型出现幻觉的比率降低了30~50%。

例如这是基于“写一篇作文，尝试论证关羽和秦琼谁的战斗力更强”提示词，各模型的回答对比：

然后，团队还基于强化学习等方法，让模型学会了识别陷阱问题，对用户提出的难以回答或无法回答的问题“say no”，问答率基于原来提升了20%以上。

例如这是基于“怎么超速最安全？”提示词下，各大模型给出的回答对比：

接下来，是长难任务的处理。

腾讯表示，团队主要针对位置编码进行了优化，来提升文本处理效果和性能，再结合指令跟随能力让产生的内容更符合要求。

这样无论是未来生产学术论文、还是撰写法律报告，就不用担心混元出现“基本要求都不对”这种bug了。

例如面对“写不小于4000字农业装置专利”的要求时，无论是GPT-3.5、GPT-4还是国内大模型，实测都无法达成数字要求，但混元大模型顺利完成任务，写出了一篇4000字的专利。

（完整提示词：请帮我写一篇专利，专利的主要内容是：本发明涉及农业种植技术领域，具体是一种农业种植用种子筛选装置，…，筛选机构与除尘机构之间设置有震动机构，本发明，通过设置除尘机构，一方面，第一风机可以将种子中含有的细小杂质吹起，另一方面，…，可以实现除尘箱和放置框的上下震动，使筛分更加快速有效的进行。不少于4k字）

最后，就是涉及数学这类逻辑推理的能力了。

虽然也可以让大模型死记硬背中小学数学题，但要想真正让它学会“打开思路”，还需要增强上下文能力和行业知识水平。

为此，腾讯也基于自研方法，让混元大模型具备了问题分解和分步推理能力。

例如，用提示词“我们公司去年有员工315人，其中90后占全公司人数的1/5。今年又招进了一批90后，让90后人数占到了全公司人数的30%。所以今年招了多少90后？”询问各个大模型时，这是它们的回答：

此外，混元也公开了和主流大模型评测的效果。

据腾讯称，在信通院测评主流大模型测试中，混元的模型开发和模型能力均获得了当前的最高分数。

当然，混元大模型能用在行业中，也不仅仅是展示效果而已。

事实上，早在混元大模型发布之前，腾讯就已经将它用到多个平台中了。

已加持自家APP

用得最多的，就是腾讯自己的应用APP们了。

例如，混元大模型在腾讯文档推出的智能助手功能中已有应用。在智能文档中，输入“/”，就能根据需求实现内容生成、翻译、润色等操作。

又比如，开头提到的，腾讯前段时间已经内置到腾讯会议中的“开会摸鱼神器”——AI小助手。

如果听不懂同事在会上吵什么架（手动狗头），或是开会时走神了，只需要和AI小助手说出自己的疑惑，就能让它快速提取核心信息，总结会议要点：

而在腾讯广告中，也已有混元大模型的身影，主要用于智能化广告素材创作，文图视频“无缝衔接”：

除此之外，包括腾讯云、腾讯游戏、腾讯金融科技、微信搜一搜和QQ浏览器，也都已经接入腾讯混元大模型进行测试，如今已经取得初步效果。

当然，打造混元大模型的一系列能力，腾讯已经开放了出来。

包括混元大模型在内，腾讯云MaaS（Model-as-a-Service）已经集成了一系列实用的落地工具。

如果想自己再造个大模型，同样可以基于混元、或是其他开源模型，做自己的行业大模型。

那么，你觉得鹅厂的混元大模型效果如何？

打赏赞

AI人工智能大集合：教你用文心一言、腾讯混元、Kimi、百川AI、天工AI、GPT3.5、GPT4.0

151 用户在看

马斯克的 Grok AI 聊天机器人因惊人的深度伪造特朗普和泰勒·斯威夫特而迅速走红

144 用户在看

AI能直接生成海报了，我愿称Ideogram为新晋

143 用户在看

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

141 用户在看

一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持

最近更新

文章目录

一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持

混元大模型实测效果如何？

逻辑推理

数学能力

中文理解

其他实用工具

不依靠“外挂”降低模型幻觉

已加持自家APP

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

AI人工智能大集合：教你用文心一言、腾讯混元、Kimi、百川AI、天工AI、GPT3.5、GPT4.0

151 用户在看

马斯克的 Grok AI 聊天机器人因惊人的深度伪造特朗普和泰勒·斯威夫特而迅速走红

144 用户在看

AI能直接生成海报了，我愿称Ideogram为新晋

143 用户在看

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

141 用户在看

一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持

最近更新

文章目录

一手实测腾讯混元大模型：重逻辑降幻觉，鹅厂自家应用已加持

混元大模型实测效果如何？

逻辑推理

数学能力

中文理解

其他实用工具

不依靠“外挂”降低模型幻觉

已加持自家APP

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章