实地探访大模型数据标注基地

西风 发自 凹非寺

量子位 | 公众号 QbitAI

首个大模型数据标注基地,来了!

百度与海口市政府合作共建百度智能云(海口)人工智能基础数据产业基地,数百名标注员100%本科及以上。

不同于以往比较常见的“打标签式”的文本数据标注形式,现在数据标注工作可以说是大变样——

要对大模型的回答进行排序、打分、评估、多轮对话

形象地来说,以前是为了告诉模型“这个是什么”,而现在是为了告诉模型“这个对不对”。

为了更直观地感受数据标注工作,我们来到了百度智能云(海口)人工智能基础数据产业基地,亲身上手体验了一把。

大模型标注员,本科率100%

大模型标注有什么不同?

围绕着大模型的训练模式,这也就决定了数据标注工作将与传统模型标注有所不同。

具体来看,主要包括标注方式、标注内容以及标注规则要求和人员。

大模型标注员,本科率100%

传统数据标注工作,以文本为例,就有语义识别、情绪识别、实体识别、转写等。

比如,从“我在人民广场吃着炸鸡”这句话中标出人名、地名;“我在人民广场快乐地吃着炸鸡”这句话情绪是积极的还是消极的。

大模型标注员,本科率100%

可以看到的是,标注要求客观、标准可以定量化,标注工作本身难度并不大。

但现在要想大模型迭代、应用落地,离不开监督微调和基于人类反馈的强化学习,这其中就决定了标注数据的高质量和专业化,操作流程上也比以往更为复杂。

也就是上面提到的要对模型回复排序、打分、评估,通过这种数据标记让模型的回答更符合人的认知逻辑和习惯。

标注人员上面,百度海口数据标注基地对新员工入职安排了两个月的专业化培训。新员工只有考核合格后才能正式上岗,在这期间需要做大量的测试题训练。

在百度看来,数据标注师需要具有较高的理解力、逻辑思维、总结能力,甚至需要具备某一场景的行业知识。

对于特别专业的问题,百度则是融入了智能化工具,人机协同标注

比如说有一些题可能是偏计算机的。普通人来回答是很费劲的,需要匹配给计算机专业的人来做答。所以百度这时就会用到内容自动识别,包括把内容自动归类、自动分发给更专业的标注师来做答,这样效率就高了,准确率、质量方面也会提高。

目前海口基地仍处于建设的初期阶段,也在孵化数据标注企业,正式上岗的数据标注师已有数百人。

“人工标注不会被机器取代”

从百度智能云的案例不难看出,人工标注目前不会被机器标注取代,这是因为机器标注有很多局限。百度智能云更希望在标注过程中用到一些智能的手段辅助人工做标注。

比如大模型回答问题可能会有一两千字,特别长。标注员要答(标注)这个题,读完所有内容就要花很长时间,成本可能很高。但是标题、问题里面可能会有些关键词,这时百度通过算法,在答案中把跟问题关键词相关的语句,比如说标亮一下,换一个颜色等,用来帮助标注员掌握这几句话提到的标题里的字,你不要错过了,要好好看。

未来,德勤预计5年内,AI基础数据服务总市场规模将突破150亿元。

好了,你认为人工标注,会不会被机器取代呢?

以及最近量子位智库《中国AIGC数据标注全景报告》案例正在征集中,尽情关注后续进展!有关AIGC数据标注的发展趋势,有什么想法欢迎分享~