用“大算力+大模型”让商业变革

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

剑指大算力,上海有了新动作——

正式成立临港新片区智能算力产业联盟(下文简称联盟)。

上海强攻算力高地,打响大模型商用基建第一枪

这就是在由上海临港新片区管理委员会主办的“临港新片区智算大会”上所公布的最新消息。

整体来看,联盟的构成围绕着一条“链”而展开:临港新片区智算产业链

顾名思义,这条“链”上的企业均是与智算产业息息相关的单位。

至于链主企业,在本次大会中也已经被上海临港新片区管理委员确定——商汤科技

上海强攻算力高地,打响大模型商用基建第一枪

△商汤科技董事长兼CEO,徐立

而除了这条“链”上的企业之外,联盟还涵盖了智算产业上下游行业翘楚,以及知名高校及科研院所等。

那么这个联盟的成立,到底要做什么?根据官方回答:

汇聚各方资源共建开放、完善的AI基础设施服务体系,为加速应用落地提供强大易用的智算底层支撑,助力构筑上海人工智能发展新高地。

一言蔽之,就是落地落地落地;并以此来推动商业的大变革。

变革之道:大算力+大模型

自从去年11月ChatGPT爆火以来,生成式AI在全球范围内受到了高度的关注。

与此同时,同样热度不减的一个概念,便是“大模型”

从整个业界目前的趋势来看,各家科技巨头乃至中小企业,都是在大模型身上发力,不断突破参数量的极限。

例如OpenAI的GPT-3参数量是1750亿,而据传言,GPT-4的参数量已经突破了惊人的万亿。

之所以如此,正是应了那句“大力出奇迹”——参数量越大,训练出来的模型效果一般都会更好。

而如此量变引发质变的背后,还有一大关键因素,那便是大算力。

毕竟单是训练一个GPT-3,便是要用10000张V100卡,训练个整整近15天,消耗了大约600PFLOPS的算力。

因此,在这种大背景之下,商汤针对临港新片区智算产业链所要实现的变革,提出了一条道路——

大模型+大算力。

上海强攻算力高地,打响大模型商用基建第一枪

在商汤看来,AGI时代之下,数据、算法和算力三要素有了新的需求:

计算量(GPU数量 x 运行时间 x 并行效率 )= 模型参数量 x 处理数据量

怎么理解?

模型参数量要足够多,才能实现AI智慧的涌现,而这也带来了对算力的剧增,需要更高的并行效率,才能有效支持大参数模型训练。

数据方面,高质量自然语言数据逐渐稀缺,而视觉数据相较自然语言在数量、质量、容纳信息等方面有多种优势,能够使得AI更好地理解世界。

变革之道是提出来了,那又取得了怎样的效果?

在现场,商汤联合创始人杨帆便介绍道:

对临港实景进行大规模三维场景重建这种任务,在“大模型+大算力”的加持之下,数小时就可以完成以往人工数周乃至数月才能完成的高精渲染工作。

上海强攻算力高地,打响大模型商用基建第一枪

再如在气象气候预报任务中,全球中期天气预报是最重要的预测任务之一。

而现如今,随着商汤全球中期气象预报AI大模型“风乌”的问世,首次实现在高分辨率上对核心大气变量进行超过10天的有效预报,且在80%的评估指标上超越GraphCast模型。

不仅如此,“风乌”还可以模拟台风等极端气象,准确预测台风轨迹。

遥感AI大模型方面,商汤以通用视觉大模型为基础,具有不同地物种类、影像类型、影像时间和谱段的高泛化能力,拥有先进的地物解译能力和媲美人工标注的生成式图斑效果。

再如自动驾驶方面,商汤提出的UniAD是业内首个感知决策一体化的端到端自动驾驶解决方案,将环视的图片通过Transformer映射得到BEV的特征,同时进行目标跟踪,在线建图,目标轨迹预测,以及障碍物预测。

甚至在游戏领域,商汤在近日还联合清华提出通才AI智能体GITM,能够在紧密模拟真实世界的畅销游戏《我的世界》中做到像人类一样生存、探索和创造。

并在主世界所有技术挑战上实现了100%的任务覆盖率。

不仅是在各种领域量的积累,商汤自身在大模型的发展也是堪称飞速。

例如今年3月开源的“书生2.5”多模态大模型在检测、分割、分类三大主流视觉任务下二十多个权威数据集上全面领先。

这也为上述自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

而在最新的发布中,商汤凭借“日日新”大模型体系,一口气涵盖AI内容创作、AI数字人视频生成和3D内容生成等。

上海强攻算力高地,打响大模型商用基建第一枪

而这些大模型所要发力之处,正是诸如医疗、短视频、教育、营销以及开发等产业领域。

……

不难看出,商汤的大模型已然是覆盖了产业中方方面面。

据杨帆介绍,截至今年5月,商汤“大模型+大算力”的方式,已经涵盖智能驾驶、生物制药、芯片设计、智慧商业、高校科研等前沿领域,并已在超过20个落地场景中实现大模型交付。

不仅如此,本次大会上,商汤还与中国信息通信研究院联合预发布《新型AI智算基础设施白皮书》,将从多个层面解析新型AI基础设施的发展特征和建设需求,以适应生产范式的重大转变,支撑AI发展进入2.0阶段。

为什么要采取这种模式?

若是将人工智能的发展历史铺开来看,就不难理解商汤如此之举的原因了。

因为整个人工智能的技术迭代进步的历史,其实就是对暴力美学的追求,以及算法、算力、数据三要素由量变产生质变的技术迭代过程。

上海强攻算力高地,打响大模型商用基建第一枪

但这种暴力美学并不意味着拥有更多的资源、算力、数据,就一定能让智能得到飞跃;更准确的来讲,它只是一个必要而非充分的条件。

对此,杨帆认为:

真正支撑暴力美学背后产生重大的技术创新和成果的,恰恰是在每一个环节的一些持续性的优化和改进。

一言蔽之,大力出奇迹的背后,是通过人工智能三要素的持续规模上升带来的技术价值的提升。

而且这三要素很多时候是联合调优的,算法的优化、数据的整理和选取,以及算力的平台性,这三者间往往是互相连通的,很难把它变成割裂的环节独自去做。

这也同样解释了为什么要成立智能算力产业链的原因:

只有链上的更多企业,通过促进彼此的交流合作思考,更深度的进行合作,我们才能够在新的关键性的重大技术浪潮中,做到更好的技术进步和支持。

而在如此新一轮技术的大浪潮之中,我们还需要有一个认知上的变化,那便是“新二八定律”

上海强攻算力高地,打响大模型商用基建第一枪

在旧二八定律中,对于业务的开发逻辑,是20%由AI模型处理,80%的压力给到了人类开发者这边。

而在未来的大模型时代,80%的任务应当由AI大模型来完成,人类只需要负责20%的提示工程等。

所有行业从业者,不管是应用的开发者,还是技术的工程师,未来可能更大的精力是需要跟大模型对话。

最后,说到关键的持续发力,商汤多年来亦是如此。

无论是新出的日日新大模型,还是商汤AI大装置SenseCore,都不是一蹴而就的事情。

例如早在五年前,商汤便已经在大模型领域着手研发。

并且在2019年,商汤便使用上千张GPU进行单任务训练,推出了10亿参数规模的视觉模型,并实现了当时业界最好的算法效果。

后来在2021年到2022年期间,商汤训练并开源了30亿参数的多模态大模型——书生。

就目前来看,商汤已经成功研发了320亿参数量的全球最大的通用视觉模型;并且已经打造了CV、NLP和AIGC相关大模型。

所以,它是通过一步一步的“小作业”,才有了如今的这份“大作业”。

再如算力方面,商汤在2022年1月便首付56亿元,启动运营亚洲最大的AI超算中心之一的人工智能计算中心(AIDC)。

上海强攻算力高地,打响大模型商用基建第一枪

时隔一年,现如今,这个算力数字已然是翻了个小翻,达到了5000PFLOPS

它可以以最大3200卡规模集群进行单任务训练,并可做到七天以上不间断的稳定训练。

总而言之,商汤可以说是用“大模型+大算力”的方式,在自身做了多年的试验,也取得了一定的成绩。

因此,面对加速智能产业落地这样的任务,这种模式可以说是正解之一。

至于未来会取得怎样的效果,是值得期待了。