海量信息自动提取,完整答案一秒直出
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
最近有两件事,让搜索引擎重回聚光灯下。
百度发布“文心百中”,用AI大模型技术驱动的产业级搜索系统。构建企业内部搜索引擎的人力成本减少90%以上,同时只需要极低数据。
几乎同一时间,OpenAI最新发布聊天机器人ChatGPT,网友发现用它来寻找问题的答案虽然有时会出错,但直接得到完整回答的感觉要比从搜索中再去挑选爽快多了。
搜索引擎这个经典技术,就要迎来一轮变革了吗?
想当年,搜索引擎是PC互联网时代的流量入口,绝对的王者。
进入移动互联网时代后,虽然不再是最受关注的焦点,但搜索也仍旧是高频刚需,逐渐融入人们的日常生活。
当人们重新把目光看向搜索引擎,也会注意到它这些年并没有停止进化。
搜索变了
过去一提到搜索,肯定离不开关键词。前几届世界杯时,人们更习惯于搜“世界杯 直播地址”,关键词之间用空格隔开。
就好像把所有网页当成一个大文档,用类似Ctrl+F的方式去对关键词做匹配。
随着手机、移动互联网的普及,人们的需求也在变化,现在更倾向于提出一个问题,并期待搜索引擎能直接给出回答。
如搜索“世界杯直播在哪看?”,更口语化也更复杂,甚至一些时候就是语音转换出来的。
搜索引擎也在适应这种变化,给出的结果不再是单纯的页面排序。
针对一些问题,会给出对内容深入理解后的答案抽取。
有时会给出更直观、更容易跟着操作的视频内容。
甚至在理解需求的基础上出现配套的服务跳转。
这些变化看起来并不复杂,背后却要有很多技术做支撑。
在这里要重点讲一下百度今年亮相的两项新技术,“知一”和“千流”。
先看跨模态大模型知一,AI技术在搜索场景落地的代表。
简单来说,知一大模型可以从全网形态各异的资源中持续学习,无论是文本、图片、视频还是结构化信息都可以融会贯通。
打破了资源形态的界限,就更容易理解用户的搜索需求。
从技术层面讲,知一使用了百度文心大模型技术。大规模预训练技术提升模型性能,蒸馏压缩率高达99%的模型小型化技术以降低成本,得以在搜索场景全面应用。
据了解,目前知一在百度搜索的各场景中每天要进行上万亿次的推理。如此巨大的使用规模又带来新的问题,如何把满足需求的结果高效呈现给用户。
这就要提到新一代索引技术千流,负责把不同维度的信息进行智能有序的组织。
千流与之前的索引技术相比,主打多领域、多维度表达的立体栅格化索引。
如何理解栅格化?
在过去,搜索引擎为提高效率会把内容按质量横向分层。先从高质量内容开始检索,满足需求就可以及时返回结果,还未满足再进入下一层。
如今,在千流中又把质量最高的一批内容按领域垂直分层。质量分层+内容命中结合,一横一纵把内容切分成栅格按需检索,大大减少每次检索的计算量。
百度工程师透露,这样节省下的计算量也没有闲着,而是对内容进行精耕细作,用不同的算法从多维度提高索引的质量。
还有一个额外好处,在不同栅格之间可以应用个性化算法。就好比“一鱼多吃”,不同的部分使用不同的烹饪方法。
知一和千流配合起来,整个系统还会根据模型最新学习到的知识,进行实时动态调整,确保最优检索效果。最大程度避免无效计算,最终把满足需求的结果高效呈现给用户。
这些新技术,在实际业务中是否起到了效果呢?
答案或许可以从数据中找。
反馈驱动创新
9月份举办的万象·百度移动生态大会,百度指出,过去一年,百度搜索规模逆势增长17%。
最新的百度第三季度财报也显示,移动端搜索查询次数同比实现两位数的增长。
百度集团资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰指出,其中的关键是“反馈驱动创新”。
一方面反馈来自智能搜索。百度搜索每天响应来自100多个国家、几十亿次的搜索请求。
另一方面则来自智能推荐。2022年第三季度百度App信息流内容分发量同比增长23%,其中的用户点赞、评论、分享也都是用户最直接的反馈。
用户的高频需求,驱动着AI技术变革。新技术又能激发新用户需求表达,两者构成“双轮驱动”,持续推动搜索进化。
比如虚拟人技术加持下,可以实现交互式对话,单纯的搜索之外又有了聊天、陪伴需求。
正如百度研究院在年初的十大科技趋势中所预测的,AIGC(AI Generated Content,人工智能生成内容)在今年大放异彩。
未来AIGC继续与搜索深度结合,还将带来“搜索即生成”甚至“搜索即创造”。
不会再有“抱歉,没有找到相关的网页,请检查您的输入是否正确”,而是用户点下搜索按钮的一瞬间,本不存在的内容由AI即时创造出来。
百度CEO李彦宏前段时间也说过:
随着技术的突破,AI作画、AI视频、甚至AI构建一个虚拟世界可能都会像手机拍照一样简单。
而一切技术的突破和创新,都离不开人才。
为了更好推动技术和算法创新、促进产学研交流、培养人才,百度举办了首届搜索技术创新挑战赛。
大赛提供30万元总奖金池、提供英伟达A100算力资源,更是有机会接触到百度海量搜索业务的脱敏数据。
本届大赛分为两个赛道:
搜索问答,旨在探索开放领域搜索场景。面对网页文档质量参差不齐、长短不一,问题答案分布零散、长度较长等问题,希望参赛者能进一步提升深度智能问答效果,给用户提供更好的搜索体验。
搜索模型推理优化,对于保障亿万用户流畅的搜索体验、控制算力成本开销至关重要。希望参赛者通过各种优化技术,挑战最优的模型推理性能。
大赛期间,百度还提供了丰富的相关课程和学习资料,搜索技术与GPU加速计算专家也将提供全程的技术辅导。
本次大赛对全社会开放,消息一出立即吸引了大量高校学生、企业团队或个人开发者,目前已有1500+队伍报名参加,成为搜索技术领域一次盛会。
大赛地址:
https://sti.baidu.com
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则