随着手机端加入了越来越多的AI运算,AI性能已经成为手机处理器的一大关键性能指标。近期我们注意到,一款测试工具频繁出现在公众视线中:ETH AI-Benchmark,也就是我们常说的苏黎世跑分。一些处理器厂商经常会援引苏黎世跑分的测试数据,用以展现其AI性能的强大。但苏黎世跑分真能代表处理器的AI性能吗?
苏黎世跑分其实和大家所熟知的安兔兔、GeekBench等跑分软件类似,不同的是,苏黎世跑分是专门针对AI性能的一款跑分软件,它通过对象识别、人脸识别、图像去模糊等共9大测试项的测试,根据不同测试项的重要程度不同,匹配不同的权重,最终得出一个表征AI性能的分数。
苏黎世跑分客观吗?
-16位浮点运算占比过大 严重脱离实际AI应用特点
这是目前最新的苏黎世跑分数据:
我们截取出了2020年颇具代表性的两大平台麒麟990 5G和骁龙865的苏黎世跑分成绩。其中,麒麟990 5G得分为70185,骁龙865得分29724,骁龙865在总分上落后麒麟990 5G一大截。但分别对比各个测试子项,骁龙865却在绝大多数项目上都取得领先。唯独在FP16子项大幅落后于麒麟990 5G。这是为什么?FP16指的是什么?
▲苏黎世跑分各测试子项的占比分配图
FP16指的是16位浮点运算,在苏黎世跑分测试子项的占比中,FP16占到了48%(浅蓝色部分),是整数运算(橙色部分)的2倍。
我们再对应实际的AI运算场景来看一下。上图列举了手机中主要AI应用中的详细运算类型,如:拍照中的防抖、降噪、HDR…视频拍摄中的慢动作、降噪、帧率转换等均是整数运算。全部的AI场景中,FP16浮点运算参与的比重非常小。
也就是说,实际AI应用中,大多数使用的都是IN8、INT16整数运算。苏黎世跑分中,FP16浮点运算48%的比重分配可能严重脱离了实际。
-缺乏对平台SDK的专门适配
需要注意的是,无论哪一款AI测试工具,都需要适配平台芯片的SDK(软件开发工具包),才能测试出芯片真实的AI能力。
这里需要介绍一下的是,安卓平台有一个基础SDK,叫做Android NN API。但为了方便厂商在平台上进行快捷开发与适配,平台商都会推出自己的SDK。苏黎世跑分采用的是Android NN API。但实际上,以骁龙平台为例,该SDK在骁龙平台的厂商中使用率非常低。数据显示:高通平台各厂商中使用骁龙SDK的比例为94%,而使用Android NN API的比例小于1%。
苏黎世跑分不支持骁龙SDK,因此在测试中并不能发挥出骁龙平台的全部AI性能,得出的数据并不具备参考意义。
-苏黎世跑分可信度存疑
在苏黎世跑分官网的排行榜中,2020.2.24显示麒麟990 5G的得分为52403,而在2020.3.31其得分就改为了70185。具体的原因我们暂未可知,但我们猜测苏黎世跑分可能对测试子项的比重做出了调整或增加了对麒麟990 5G平台的一些新的支持。
苏黎世跑分的标准可能还未完全确定,仍在持续调整中。
该如何了解处理器的AI性能?
值得一提的是,各大厂商在发布移动处理器时,几乎都会以TOPS(Tera Operation Per Second,万亿次/每秒)为单位,公布理论AI性能。比如骁龙865为15TOPS,天玑1000为4.5TOPS,这就是其理论的AI算力,而麒麟990 5G并未公布过此项数据。理论AI算力为官方数据,可以作为评定其AI性能的主要参考。
而国内知名的测试平台安兔兔和鲁大师也分别推出了AI专项测试工具:安兔兔AI评测和鲁大师AImark。
安兔兔AI评测是通过各厂商提供的SDK将原始神经网络转化为厂商所支持的神经网络,再通过图片分类、对象识别测试项对处理器AI性能做评定。
鲁大师AImark使用的则是目前较为常用的三种神经网络Inception V3、ResNet34、VGG16的特定算法,按照概率高低输出可能的结果列表,最终通过识别速度来判断手机AI性能,进而给出评分。
而且,安兔兔AI测试和鲁大师AImark均表示:与平台商进行了合作、联调。
“鲁大师AI评测收到了数百万的测试数据,也与ARM,高通,海思、联发科、三星等AI核心SOC产品供应商进行了测试与调整,从而确定要增加精度系统到原有的评测体系。”___援引自鲁大师官方微博
“高通的SDK名为SNPE、联发科的SDK名为NeuroPilot,海思麒麟的SDK名为HiAI、NVIDIA的SDK名为TensorRT,而三星的SDK目前尚未公布,这些SDK都会在安兔兔AI评测中得以展现。安兔兔通过和上述厂商的合作,建立了统一的标准进行测试。”___援引自安兔兔官网
鲁大师于日前发布了2020年Q1季度手机AI芯片排行榜,占据榜首的为高通骁龙865,得分112309。这比第二名的苹果A13以及第三名的麒麟990高了近一倍,与苏黎世跑分排行榜形成了强烈反差。
虽然,目前对于移动平台AI性能的测试,尚未有行业公认的唯一标准。但就从测试子项比重以及平台适配的情况来看,苏黎世跑分不仅严重脱离了实际AI应用特点,而且缺乏对平台SDK的适配。相较而言,鲁大师AImark和安兔兔AI测试则能在更大程度上反映平台的真实AI性能。