中国科学院自动化研究所   设为首页   加入收藏  联系我们
 
English
网站首页     实验室概况     研究队伍     组织机构     学术交流     科研成果     人才培养     开放课题     创新文化     资源共享     联系我们
    新闻动态

【智能感知中心】视觉目标检测大模型GAIA —面向行业的视觉物体检测一站式解决方案

【导语】在深度学习与大数据的浪潮下,视觉目标检测在各个基准数据集上已经达到了优异的性能。中国科学院自动化研究所智能感知与计算研究中心联合华为等企业提出面向行业的视觉物体检测一站式解决方案GAIA。通过GAIA,用户可轻松获得不同硬件环境下的可直接用于部署的目标检测模型。GAIA致力于构建一种生态,它以目标检测为基础,后续将会开枝散叶扩展到更多领域,期望更多的学者和用户共同维护GAIA的迭代,参与到GAIA社区中。

GAIA研究发表于CVPR2021
论文链接:https://arxiv.org/pdf/2106.11346.pdf
框架在Github上开源
Code:https://github.com/GAIA-vision 


一、GAIA应时而生

目标检测是识别图片中有哪些物体以及物体的位置(坐标位置)的技术,是计算机视觉应用的基础,比如实例分割、人体关键点提取、人脸识别等。在互联网、大数据、人工智能等技术的发展浪潮下,目标检测展现出巨大的应用价值,受到工业界、学术界的密切关注。各类研究机构争相构建并对外公开COCO、OpenImage等大规模数据集用于目标检测模型训练。数据集的日益丰富极大促进了技术的更新迭代,不断涌现出以Faster R-CNN为脉络发展的Two-stage和以YOLO、SSD为基础的One-stage目标检测新范式。
目标检测技术在产业应用中的需求越来越广泛和深入,学术界已经训练好的模型评估都是基于标准benchmark,在产业化应用落地中通常表现出严重的“水土不服”,需要重新定制化开发。快速设计出最适合工业界不同业务场景的目标检测模型是一项很有挑战的工作,需要决定制化需求开发中的核心痛点问题:
一、数据整合难。数据治理是建模的基本要素,在AI应用开发过程中,从数据的采集、清洗和转换到最终生成算法所需的数据集需要经历繁琐的流程和花费高昂的成本,而且很有可能因为数据的准确性、完整性、有效性等问题,无法发挥模型优势。
二、模型优化难。模型需有冗繁调参、预训练过程才能发挥其性能。很多终端用户由于没有足够相关专业领域知识,无法从纷繁复杂的模型及数据中选取最优资源。对个人用户来说,计算资源不足导致训练耗时过长,使得算法调优更是雪上加霜。
三、资源共享难。不同用户可能有类似的需求,但是他们都需要分别进行一系列从数据到模型的重复开发,模型迁移难度大,而且资源浪费严重。
四、模型定制难。针对不同的下游任务,往往需求千差万别,数据各式各样,算力各有不同,现在方法往往需要针对不同下游任务进行人工定制,费时费力。
为此提出了面向行业的视觉物体检测一站式解决方案:视觉目标检测大模型GAIA(相关人员包括:张兆翔研究员、彭君然博士、卜兴源、常清等)。该平台适应移动终端、个人电脑、大型服务器等任意场景,终端用户只需要在GAIA配置文件中设置检测的类别,输入简单的几行命令,GAIA迅速响应,自主学习数据集选择、模型选择和超参数优化等过程,用户可以轻松、快速获得任意下游数据、任意耗时要求的自适应解决方案(图1)。
图1. GAIA-面向行业的视觉物体检测一站式解决方案

二、GAIA详解

视觉目标检测大模型GAIA作为面向行业打造的下一代一站式目标检测新方案,包含上游数据集、全模型训练、稀疏数据下数据选取和部署模型提取四个模块。

图2.视觉目标检测大模型GAIA技术框架

上游数据集赋能

各类研究机构为不同的研究任务构建了各类目标检测公开数据集,如COCO、Object365、Open Images、Caltech、CityPersons、UODB等都是主流的目标检测数据集。学术界往往都是在上述标准数据集下进行检测任务的训练和测试,但是对产业界来讲,如何从已有的数据集中选取适合应用场景的子集却是举步维艰。
借鉴大规模预训练模型BERT、GPT-3等在自然语言处理领域中的成功,GAIA将该范式延拓到视觉目标检测领域,对所有可用公开数据集整合并进行大规模预训练,增加模型的泛化能力和表示能力。由于自然语言中语料数据集本身是离散型,自然语言处理中的大规模预训练很容易构建无监督训练任务。但是这种方法迁移至计算机视觉领域就会遇到很多瓶颈,不同数据集的类别标签很容易出现歧义,比如像earth、ground可能在不同的数据集中都表示地面,或不同数据集类别标签之间存在包含关系,像绿植和树。GAIA通过语义模型对类别建立语义相似度,将不同数据集中类别语义相似度大于阈值的归为同一类别,从而梳理出最终的类别和ID的映射关系。
全模型训练
神经网络架构搜索算法OFA、BigNAS等在训练超网时,对其中的子网同时训练,这样只需花费很小的代价就可得到不需要微调就性能优异的子网络。与BERT、GPT等预训练大模型相比,GAIA不同之处在于将NAS与大规模预训练进行结合,提供涵盖各种latency下的高性能预训练网络。设计良好的子网采样空间对网络的训练至关重要,在我们进行探索的过程中发现网络深度和输入图像分辨率是影响模型性能的核心因素,网络宽度是模型运行占用显存的关键因素(图3)。因此GAIA的采样空间从网络深度、输入分辨率、网络宽度三个维度出发,根据已有的经典网络模型设置锚点,在锚点周围空间从三个维度进行子网抽取,让整个模型训练过程更加有效。

图3. 模型性能分析

特定下游任务数据选取
用户在本地下游任务中,能提供的有标签数据十分有限,已有的开源数据集虽然包含的数据类别十分丰富,数量也十分庞大,但是相同类别的数据存在域间差异,比如漫画图片中的鸟和自然场景中的鸟存在很大差异,直接通过类别使用开源数据集,只会对用户本地下游任务产生不利的影响,选取合适数据集,帮助下游任务是一项不小的挑战。
通过实验发现,检测框进行分类的全连接层特征图和数据domain有很强的关联性。以person类别为例,对不同数据集中该类别全连接层特征图T-sne降维后进行可视化(图4),发现不同数据集呈现聚簇式地分布在不同的空间区域,说明相同domain数据可以通过分类分支的全连接层特征图进行聚类。GAIA基于此实验现象进行下游任务的数据选取。

图4. 不同数据集下分类全连接层特征图可视化

如果终端用户提供的有标签数据数量没有达到预先设定好的阈值,GAIA会直接根据该使用的语义模型找到本地类别中语义信息最近似的类别,在该类别的上游数据集上通过模型映射向量的相似度找到域间差异最小的一部分图片(如图5),并对提取模型快速训练。通过该功能,即使用户只能够提供几张图片的数据场景下,GAIA同样可以提供十分出色的模型。

图5. 特定任务数据选取
下游模型选择
GAIA已经测好所包含各种子网的FLPOPS TABLE,以及多种硬件平台下的LATENCY TABLE(图6)。对于初级使用者而言,只需要在本地提供FLPOPS、LATENCY和硬件平台,就可以获得满足这些约束的性能最佳的子网。对于经验丰富的使用者,可通过GAIA提供的接口,自定义添加其他约束条件,轻松获取性能优异的定制化子网模型。
图6. 下游模型结构选取
三、优越性能
GAIA的强大之处最直接体现在可以满足用户给出的任意时延或任意下游数据,快速定制可部署检测模型,以COCO数据集为例,GAIA-det可以快速提供时延16~53ms、AP 38.2~46.2的模型。用户不需要再花费很大的精力从数据到模型重新开发。
GAIA已经在VOC、Object365、OpenImages、Caltech、KITTI等15个目标检测常用公开数据集上通过测试(图7),发现GAIA提供的模型可以很好的满足终端用户的定制需求。

图7. GAIA在目标检测常用数据集的性能对比

四、未来展望

视觉目标检测大模型GAIA是面向行业的视觉物体检测一站式解决方案,随着应用场景的日益丰富和理论技术的突破,不断更新的上游数据集会定期汇聚到GAIA,新的训练模型和网络架构都会通过测试验证后迭代至GAIA,确保GAIA一直为终端用户提供最优质的行业解决方案。现阶段,GAIA-det已在Github上开源,GAIA-seg、GAIA-ssl接近完成,即将推出,致力于解决更多领域的问题。。GAIA是我们大家共同的GAIA,GAIA需要大家的宝贵意见和建议,期望更多的学者和用户共同维护GAIA的迭代,参与到GAIA生态建设中,一起让GAIA成长得更快更好。


参考文献:
Xingyuan Bu*, Junran Peng*, Junjie Yan, Tieniu Tan, Zhaoxiang Zhang†, GAIA: A Transfer Learning System of Object Detection that Fits Your Needs, IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, Online (Nashville, United States), June 19-25, 2021

传送门: 

论文链接:

https://arxiv.org/pdf/2106.11346.pdf

代码链接:

https://github.com/GAIA-vision/GAIA-cv

https://github.com/GAIA-vision/GAIA-det

https://github.com/GAIA-vision/GAIA-seg

友情链接
 
中科院自动化研究所 模式识别国家重点实验室 事业单位  京ICP备14019135号-3
NLPR, INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES