华控清交已量产

Pine 发自 凹非寺

量子位 | 公众号 QbitAI

清华系公司华控清交已量产业界首款半同态计算芯片

每块板卡计算模幂的性能可媲美约1000个CPU核

这也是华控清交在隐匿查询方向上的最新成果。

隐匿查询具体来说,是指在查询方不暴露查询意图,同时又能保护数据方提供方数据库中其他数据的情况下获得得相关查询结果。

举个简单的栗子:

某信用机构拥有一系列居民的征信分数及征信记录等信息;某贷款机构想从征信机构查询一个借贷客户的信用分数。

贷款机构出于保护客户资源的考量,不愿泄露这位客户的身份证号;同时征信机构也不想泄露除了这位被查询的借贷客户信息之外的其他信息(如其他居民的征信分数)。

这时候,隐匿查询就派上用场了,它能够很好地保证客户的信息不被泄漏。

隐私计算专用芯片!清华系公司推出,性能可媲美1000个CPU核

那华控清交这次的成果对隐匿查询来说意味着什么?

在此之前,我们得先整明白目前的隐匿查询存在什么问题。

传输速度慢

一般来说,隐匿查询根据实际使用情况可分为两类:基于序号的查询和基于关键字的查询。

基于序号的查询是指:查询方已经知道要查询的数据位于数据源中的具体顺序位置,再根据这个序号进行查询,这在实际使用中并不常见。

在生活中更为常用的是基于关键字的查询,这种方法只需要查询方提供全局唯一的关键字(如身份证号、手机号等)即可。

所以这里我们就主要探讨基于关键字的隐匿查询。

要实现隐匿查询,密码学中已经有很多种方法:不经意传输、全同态加密以及半同态加密等。

不过这些方法或多或少都有些缺陷:即高带宽资源与高算力不可兼得。

要不是计算极快需要消耗很多带宽,要不就是对算力要求很高但传输的数据量较少。

而在实际应用中,通过广域网进行远程查询时能够使用的带宽资源有限,很多时候分配的带宽只有10Mbps甚至更少。

所以那些对算力要求不高,但需要大量传输数据的方法在这样低带宽的情况下就会耗费很久的时间,有时仅花在数据传输上的时间就有将近10分钟。

这样一来,要提高隐匿查询的速度,只有一条路可以走:

  • 采用传输数据量少、算力要求高的隐匿查询方法。
  • 然后提高算力。

比AMD旗舰处理器快10余倍

基于此,在隐匿查询的方法上,华控清交使用了纯粹的加法同态加密方案 (半同态加密方法):

用计算量的增加换取通讯量的降低,确保在低带宽的环境下依然可以较快地完成通讯过程。

接下来就只面临一个问题:计算量大

这时候,华控清交的半同态计算芯片就派上用场了。

官方对这款芯片做出了如下介绍:

  • 每块板卡可达到很高的吞吐量:计算模幂的性能可媲美约1000个CPU核;
  • 单块板卡满负荷运载时的功率仅为约120W;
  • 支持一卡多芯片、一机多卡、多机并行,提供很好的数据并行能力,同时能在最小的空间中布置最多的算力。

不过这都是纸上谈兵,不如直接上数据来得直观。

为此,华控清交将他们的芯片与AMD旗舰处理器EPYC 7742两个不同的隐匿查询场景下进行了对比,其中算法都采用的是Paillier(一种半同态加密方法)。

具体来说,测试AMD处理器的性能时,每个参与方独立使用一块AMD EPYC 7742,所有的软件算法均在该款CPU上运行。

而在测试芯片性能时每方独立使用两张芯片加速卡。

之所以这么对比,是因为一颗AMD处理器的TDP为225W(实际工作功率还会略大些),而两块芯片板卡满负荷运载的功率则是240W左右。

场景一:

隐私计算专用芯片!清华系公司推出,性能可媲美1000个CPU核

场景二:

隐私计算专用芯片!清华系公司推出,性能可媲美1000个CPU核

可以很直观地看到,在华控清交研发的芯片的加持下,隐匿查询的速度比AMD处理器之下的速度快出十多倍

除此之外,华控清交还为这款芯片专门设计了一款配套的板卡,带主动散热,通过PCIe与上位机通讯,这意味着能插GPU的机器都可以使用这款板卡。

隐私计算专用芯片!清华系公司推出,性能可媲美1000个CPU核

这款芯片从2021年便开始半同态计算芯片的设计和流片,经过一年左右的时间,在今年第三季度已经实现量产。

华控清交表示对这款芯片会另行召开序列专题推介会,并将在明年年初批量出货。

传送门:

https://mp.weixin.qq.com/s/5_pWzCr7OCcwiUBU-fNQtg