近日,创新奇智团队在CVPR 2023细粒度视觉分类(FGVC)赛事荣获PlantTraits和SnakeCLEF赛道两项冠军。

CVPR作为全球顶级计算机视觉会议,每年都吸引很多全球知名企业及研究机构参加。近日,创新奇智团队在CVPR 2023细粒度视觉分类(FGVC)赛事荣获PlantTraits和SnakeCLEF赛道两项冠军,彰显了在细粒度视觉分类领域的强大技术实力。

FGVC(Fine-Grained Visual Categorization)是CVPR主办的细粒度视觉分类workshop竞赛。本届CVPR-FGVC10研讨会由丹麦哥本哈根大学、美国加州理工学院、英国爱丁堡大学、美国麻省理工学院、英国伦敦大学学院、捷克共和国皮尔森西波西米亚大学、北京大学、Meta(Facebook)、Google等知名高校及机构联合主办。

图像分类在计算机视觉领域占据着重要地位,是最基础和应用最广泛的任务之一,特别是细粒度分类,要求在区分出基本类别的基础上,进行更精细的子类划分,如区分植物的种类、车的款式、狗的品种等。但在训练样本数据有限且类别高度相似的领域中,现有技术的表现并不尽如人意。当前,细粒度图像分类成为计算机视觉领域的一个热门研究课题,在工业界和实际生活中有着广泛的业务需求和应用场景。

PlantTraits赛题介绍及技术方案

PlantTraits 2023挑战赛由德国莱比锡大学地球系统研究遥感中心(RSC4Earth, Leipzig University, Germany)主办,旨在探索从有限的植物性状数据中预测全球范围内的植物性状,以及整个生态系统将如何对气候变化做出反应。赛事要求利用植物的图像并结合植物生长环境与植物形状之间的关系预测出植物性状。赛题给定植物图像数据、植物生长环境信息以及植物性状的均值与方差进行模型训练,要求参赛者使用深度学习的回归模型从植物照片中预测植物属性,比如长度、发芽率等30余项属性。主办方将根据各参赛队伍提交的植物性状文件计算出平均R2进行排名。

该任务的一大难点在于数据量极少,单一类别植物至多只有6张图像与之对应。

为了解决上述问题,创新奇智团队选取ConvNeXtV2模型作为骨干网络(backbone)。考虑到该任务为植物细粒度回归任务,因此首先采用迁移学习(Transfer Learning)方法,在iNaturelist数据集上对该模型进行预训练,有效提升了该模型在植物特征提取方面的能力。同时,为了有效地利用植物生长环境等数据,团队对这些meta数据进行了归一化。在通过ConvNeXtV2网络提取出图像特征和将归一化后的meta数据拼接到图像特征之后,然后再通过多层感知机(MLP)对特征进行充分融合,输出植物的类别概率值。

在整个处理过程中,团队使用不同的概率进行数据添加和模型参数的丢弃,以获得多个模型的推理结果,并将输出的相应类别的概率值取平均以获得这些模型的最终分类结果。最终根据植物的类别确定出植物性状分布的范围后,再利用其均值进行后处理替换便得到植物30余项属性的数值。

创新奇智荣获CVPR2023细粒度视觉挑战赛两项冠军

SnakeCLEF2023赛题介绍及技术方案

SnakeCLEF2023由捷克西波西米亚大学(University of West Bohemia, Czechia)主办,旨在推进从图像和元数据中识别蛇种的鲁棒算法的开发。这一目标在生物多样性保护领域具有深远意义,也是保护人类生存健康的重要方面。赛事要求从给定的真实蛇种观察数据集(对单一个体有多张照片和相应的元数据)中训练一个分类模型,对蛇的种类进行预测,且模型大小限制为最大1GB。主办方使用参赛队伍提交的模型和推理代码在私有数据上进行推理,以确保结果的可复现性,最终根据推理出的结果计算识别得分并计算排名。得分由分类准确率Acc、F1和有毒物种识别得分共同组成。

本次任务主要存在以下难点:1)细粒度图像识别:识别蛇种类的困难在于外观上类内部的高差异性以及类与类之间的低差异性,这取决于地理位置、颜色变化、性别或年龄。同时,许多物种在视觉上与其他物种相似(例如拟态);2)长尾分布:训练集表现出显著的长尾分布问题,样本主要集中在少数类别上,部分类别样本数较少;3)元数据的使用:如何利用主办方提供的元数据提升模型的分类能力;4)识别有毒物种的鲁棒性:正确地识别出有毒物种,并尽量避免将有毒物种识别为无毒物种;5)模型大小最大限制为1GB

为了解决上述问题,创新奇智团队选取timm开源模型库中的ConvNeXtV2模型作为骨干网络,提取图像的深层特征并与浅层特征进行融合。为了最大程度地利用训练数据,团队将图像分辨率调整为512×512,并对图像进行更鲁棒的数据增强,如随机裁剪、随机翻转、对比度和饱和度增强以及CutMix等。针对数据集的长尾分布问题,使用长尾实例分割中的Seesaw损失,减轻对尾部类别的压倒性惩罚,并补偿因惩罚减少而导致的错误分类风险。

此外,团队利用元数据中的国家地区代码构造文本提示词,输入到CLIP文本编码器中获取文本特征,与图像特征进行融合,并且团队设计了一个轻量的先验模型,计算样本使用文本特征进行分类的先验概率,在后处理阶段与骨干模型一起计算联合概率以提高模型的鲁棒性。通过这种方式,元数据可以提供图像中所缺乏的可靠地理位置信息,使模型如同人类专家一样综合多方面的信息之后进行判断。

创新奇智荣获CVPR2023细粒度视觉挑战赛两项冠军

在后处理阶段,团队专门针对有毒物种的识别进行鲁棒性处理。对于模型针对某一样本计算出其在类别上的概率分布,在分类过程中,一般采用概率最大值对应的类别作为预测类别。这是不够鲁棒的,因为当模型对某一样本预测的置信度较低时,其概率最大值也同样较低。因此,对某一样本,当其预测类别的置信度较低时,我们对其概率分布进行降序排序,如果其中前五个概率对应的类别存在有毒物种时,则认为这个样本是有毒物种。通过这种方式,可以尽可能地防止有毒物种的误判,也更符合人的直觉。

成果落地应用

细粒度视觉分类在制造、零售、文娱等行业应用广泛,比如识别产品的瑕疵种类、识别身边的动物/植物等。

作为参赛队伍教练,这也是创新奇智CTO张发恩在本届CVPR指导获得的第二个细粒度视觉分类挑战赛冠军,他指出:“作为一家专注于人工智能商业化落地的企业,创新奇智不仅关注学术研究和前沿技术发展趋势,也积极地将研究成果应用于实际业务场景中。未来,我们将继续发挥在细粒度视觉分类领域的优势,不断提升我们的技术实力和产品服务水平,推动前沿人工智能技术在传统制造业的应用落地。”

*本文获刊转载,观点仅为作者所有

— 完 —