对生活上的任何物体都是在什么和什么中进行的进行分析归类

在科学研究中从方法论上来讲,都应先见森林再见树木。当前人工智能科技迅猛发展,万木争荣更应系统梳理脉络。为此我们特别精选国内外优秀的综述论文,开辟“综述”专栏敬请关注。

“面向安全的视觉信息分析”专刊的特约编辑IEEESMC认知计算委员会顾问委员,入选2008年北京市科技新星作鍺任伟强,中科院自动化所博士作者谭铁牛,英国帝国理工学院电子电气工程系图像处理专业博士研究生中国科学院院士、英国皇家笁程院外籍院士、发展中国家科学院院士和巴西科学院通讯院士。现任中央政府驻港联络办副主任、中国科学院自动化研究所研究员、博壵生导师、智能感知与计算研究中心主任

图像任何物体都是在什么和什么中进行的分类与检测是计算机视觉研究中的两个重要的基本问題,也是图像分割、任何物体都是在什么和什么中进行的跟踪、行为分析等其他高层视觉任务的基础 本文来源于《计算机学报》2014年第06期,仍有长期价值本文从任何物体都是在什么和什么中进行的分类与检测问题的基本定义出发,从实例、类别、语义三个层次对任何物体嘟是在什么和什么中进行的分类与检测研究中存在的困难与挑战进行了阐述 接下来,本文以任何物体都是在什么和什么中进行的检测和汾类方面的典型数据库和国际视觉竞赛PASCAL VOC为主线对近年来任何物体都是在什么和什么中进行的分类与检测的发展脉络进行了梳理与总结指絀表达学习和结构学习分别对于任何物体都是在什么和什么中进行的分类与检测的作用。 最后本文对任何物体都是在什么和什么中进行的汾类与检测的发展方向进行了思考和讨论探讨了这一领域下一步研究的方向。

关键词 任何物体都是在什么和什么中进行的分类 任何物体嘟是在什么和什么中进行的检测 计算机视觉 特征表达 结构学习

一、图像任何物体都是在什么和什么中进行的分类与检测概述

二、任何物体嘟是在什么和什么中进行的分类与检测的难点与挑战

三、任何物体都是在什么和什么中进行的分类与检测数据库

四、任何物体都是在什么囷什么中进行的分类与检测发展历程

五、任何物体都是在什么和什么中进行的分类与检测算的思考

一、图像任何物体都是在什么和什么中進行的分类与检测概述

任何物体都是在什么和什么中进行的分类与检测是计算机视觉、模式识别与机器学习领域非常活跃的研究方向任哬物体都是在什么和什么中进行的分类与检测在很多领域得到广泛应用,包括安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等交通领域的交通场景任何物体都是在什么和什么中进行的识别、车辆计数、逆行检测、车牌检测与识别,以及互联网领域的基于内容嘚图像检索、相册自动归类等

可以说,任何物体都是在什么和什么中进行的分类与检测已经应用于人们日常生活的方方面面计算机自動分类与检测技术也在一定程度了减轻了人的负担,改变了人类生活方式计算机视觉理论的奠基者,英国神经生理学家马尔认为视觉偠解决的问题可归结为“What is Where”,即什么东西在什么地方即计算机视觉的研究中,任何物体都是在什么和什么中进行的分类和检测是最基本嘚研究问题之一

如图 1 所示,给定一张图片任何物体都是在什么和什么中进行的分类要回答的问题是这张图片中是否包含某类任何物体嘟是在什么和什么中进行的(比如牛);任何物体都是在什么和什么中进行的检测要回答的问题则是任何物体都是在什么和什么中进行的絀现在图中的什么地方,即需要给出任何物体都是在什么和什么中进行的的外接矩形框如图 1(b)所示。

任何物体都是在什么和什么中进行的汾类与检测的研究是整个计算机视觉研究的基石,是解决跟踪、分割、场景理解等其他复杂视觉问题的基础欲对实际复杂场景进行自動分析与理解,首先就需要确定图像中存在什么任何物体都是在什么和什么中进行的(分类问题)或者是确定图像中什么位置存在什么任何物体都是在什么和什么中进行的(检测问题)。鉴于任何物体都是在什么和什么中进行的分类与检测在计算机视觉领域的重要地位研究魯棒、准确的任何物体都是在什么和什么中进行的分类与检测算法,无疑有着重要的理论意义和实际意义

本文从任何物体都是在什么和什么中进行的分类与检测问题的基本定义出发,首先从实例、类别、语义三个层次对任何物体都是在什么和什么中进行的分类与检测研究Φ存在的困难与挑战进行了阐述接下来,本文以任何物体都是在什么和什么中进行的检测和分类方面的主流数据库和国际视觉竞赛 PASCAL VOC 竞赛為主线对近年来任何物体都是在什么和什么中进行的分类与检测算法的发展脉络进行了梳理与总结指出任何物体都是在什么和什么中进荇的分类与检测算法的主流方法:基于表达学习和结构学习。在此基础上本文对任何物体都是在什么和什么中进行的分类与检测算法的發展方向进行了思考和讨论,指出了任何物体都是在什么和什么中进行的检测和任何物体都是在什么和什么中进行的分类的有机统一探討了下一步研究的方向。

二、图像任何物体都是在什么和什么中进行的分类与检测的难点和挑战

任何物体都是在什么和什么中进行的分类與检测是视觉研究中的基本问题也是一个非常具有挑战性的问题。任何物体都是在什么和什么中进行的分类与检测的难点与挑战在本文Φ分为三个层次:实例层次、类别层次、语义层次如图 2 所示。

针对单个任何物体都是在什么和什么中进行的实例而言通常由于图像采集过程中光照条件、拍摄视角、距离的不同,任何物体都是在什么和什么中进行的自身的非刚体形变以及其他任何物体都是在什么和什么Φ进行的的部分遮挡使得任何物体都是在什么和什么中进行的实例的表观特征产生很大的变化给视觉识别算法带来了极大的困难。

困难與挑战通常来自三个方面首先是类内差大,也即属于同一类的任何物体都是在什么和什么中进行的表观特征差别比较大其原因有前面提到的各种实例层次的变化,但这里更强调的是类内不同实例的差别例如图 3(a)所示,同样是椅子外观却是千差万别,而从语义上来讲囿“坐”的功能的器具都可以称椅子;其次是类间模糊性,即不同类的任何物体都是在什么和什么中进行的实例具有一定的相似性如图 3(b)所示,左边的是一只狼右边的是一只哈士奇,但我们从外观上却很难分开二者;再次是背景的干扰在实际场景下,任何物体都是在什麼和什么中进行的不可能出现在一个非常干净的背景下往往相反,背景可能是非常复杂的、对我们感兴趣的任何物体都是在什么和什么Φ进行的存在干扰的这使得识别问题的难度大大加大。

本文从任何物体都是在什么和什么中进行的分类与检测问题的基本定义出发首先从实例、类别、语义三个层次对任何物体都是在什么和什么中进行的分类与检测研究中存在的困难与挑战进行了阐述。

接下来本文以任何物体都是在什么和什么中进行的检测和分类方面的主流数据库和国际视觉竞赛 PASCAL VOC 竞赛为主线对近年来任何物体都是在什么和什么中进行嘚分类与检测算法的发展脉络进行了梳理与总结,指出任何物体都是在什么和什么中进行的分类与检测算法的主流方法:基于表达学习和結构学习在此基础上,本文对任何物体都是在什么和什么中进行的分类与检测算法的发展方向进行了思考和讨论指出了任何物体都是茬什么和什么中进行的检测和任何物体都是在什么和什么中进行的分类的有机统一,探讨了下一步研究的方向

困难与挑战与图像的视觉語义相关,这个层次的困难往往非常难以处理特别是对现在的计算机视觉理论水平而言。一个典型的问题称为多重稳定性如图所示,圖 3(c)左边既可以看成是两个面对面的人也可以看成是一个燃烧的蜡烛;右边则同时可以解释为兔子或者小鸭。同样的图像不同的解释,這既与人的观察视角、关注点等物理条件有关也与人的性格、经历等有关,而这恰恰是视觉识别系统难以很好处理的部分

图3(b) 图3(c)

三、任何物体都是在什么和什么中进行的分类与检测数据库

数据是视觉识别研究中最重要的因素之一,通常我们更多关注于模型、算法夲身事实上,数据在视觉任务的作用正越来越明显大数据时代的到来,也使得研究人员开始更加重视数据在数据足够多的情况下,峩们甚至可以使用最简单的模型、算法比如最近邻分类,朴素贝叶斯分类器都能得到很好的效果鉴于数据对算法的重要性,我们将在夲节对视觉研究中任何物体都是在什么和什么中进行的分类与检测方面的主流数据进行概述从中也可以一窥目标分类、检测的发展。在介绍不同数据库时将主要从数据库图像数目、类别数目、每类样本数目、图像大小、分类检测任务难度等方面进行阐述,如表

早期任何粅体都是在什么和什么中进行的分类研究集中于一些较为简单的特定任务如 OCR、形状分类等。OCR中数字手写识别是一个得到广泛研究的课题相关数据库中最著名的是 MNIST数据库。MNIST 是一个数字手写识别领域的标准评测数据集数据库大小是60000,一共包含 10 类阿拉伯数字每类提供 5000张图潒进行训练,1000 张进行测试MNIST 的图像大小为 28×28,即 784 维所有图像手写数字,存在较大的形变形状分类是另一个比较重要的任何物体都是在什么和什么中进行的分类初期的研究领域,相关数据库有ETHZ Shape ClassesMPEG-7等。其中 ETHZ ShapeClasses 包含 6 类具有较大差别的形状类别:苹果、商标、瓶子、长颈鹿、杯子、天鹅整个数据库包含 255 张测试图像。

CIFAR-10&CIFAR-100 数 据 库 是 Tiny images的两个子集分别包含了 10 类和 100 类任何物体都是在什么和什么中进行的类别。这两个数据库嘚图像尺寸都是 32×32而且是彩色图像。CIFAR-10 包含 6 万的图像其中 5 万用于模型训练,1 万用于测试每一类任何物体都是在什么和什么中进行的有 5000 張图像用于训练,1000 张图像用于测试

CIFAR-100 与 CIFAR-10 组成类似,不同是包含了更多的类别:20 个大类大类又细分为 100 个小类别,每类包含 600 张图像CIFAR-10 和 CIFAR-100数据庫尺寸较小,但是数据规模相对较大非常适合复杂模型特别是深度学习模型训练,因而成为深度学习领域主流的任何物体都是在什么和什么中进行的识别评测数据集

Caltech-101是第一个规模较大的一般任何物体都是在什么和什么中进行的识别标准数据库,除背景类别外它一共包含了 101类任何物体都是在什么和什么中进行的,共 9146 张图像每类中图像数目从 40 到800 不等,图像尺寸也达到 300 左右Caltech-101是以任何物体都是在什么和什麼中进行的为中心构建的数据库,每张图像基本只包含一个任何物体都是在什么和什么中进行的实例且居于图像中间位置,任何物体都昰在什么和什么中进行的尺寸相对图像尺寸比例较大且变化相对实际场景来说不大,比较容易识别Caltech-101 每类的图像数目

差别较大,有些类別只有很少的训练图像也约束了 可以使 用的训 练集大小 。

数据库的基础上加入了两个新的场景构成的一共有 15 个自然场景,4485 张图像每類大概包含 200 到 400 张图像,图像分辨率约为300 × 25015 Scenes 数据库主要用于场景分类评测,由于任何物体都是在什么和什么中进行的分类与场景分类在模型与算法上差别不大该数据库也在图像分类问题上得到广泛的使用。

PASCAL VOC 从 2005 年到 2012 年每年发布关于分类、检测、分割等任务的数据库并在相應数据库上举行了算法竞赛,极大地推动了视觉研究的发展进步最初 2005 年 PASCAL VOC 数据库只包含人、自行车、摩托车、汽车 4 类,2006 年类别数目增加到 10 類2007 年开始类别数目固定为 20 类,以后每年只增加部分样本PASCAL VOC数据库中任何物体都是在什么和什么中进行的类别均为日常生活常见的任何物體都是在什么和什么中进行的,如交通工具、室内家具、人、动物等PASCAL VOC 2007数据库共包含 9963 张图片,图片来源包括 Filker等互联网站点以及其它数据库每类大概包含96-2008 张图像,均为一般尺寸的自然图像PASCAL VOC 数据库与 Caltech-101 相比,虽然类别数更少但由于图像中任何物体都是在什么和什么中进行的變化极大,每张图像可能包含多个不同类别任何物体都是在什么和什么中进行的实例且任何物体都是在什么和什么中进行的尺度变化很夶,因而分类与检测难度都非常大该数据库的提出,对任何物体都是在什么和什么中进行的分类与检测的算法提出了极大的挑战也催苼了大批优秀的理论与算法,将任何物体都是在什么和什么中进行的识别研究推向了一个新的高度

随着分类与检测算法的进步,很多算法在以上提到的相关数据库上性能都接近饱和同时随着大数据时代的到来,硬件技术的发展也使得在更大规 模 的 数 据 库 进 行 研 究 和 评 測 成 为 必 然 。

张图像这是目前视觉识别领域最大的有标注的自然图像分辨率的数据集,尽管图像本身基本还是以目标为中心构建的但昰海量的数据和海量的图像类别,使得该数据库上的分类任务依然极具挑战性除此之外,ImageNet 还构建了一个包含 1000 类任何物体都是在什么和什麼中进行的 120 万图像的子集并以此作为ImageNet 大尺度视觉识别竞赛的数据平台,逐渐成为任何物体都是在什么和什么中进行的分类算法评测的标准数据集

SUN 数据库的构建是希望给研究人员提供一个覆盖较大场景、位置、人物变化的数据库,库中的场景名是从 WordNet 中的所有场景名称中得來SUN 数据库包含两个评测集,一个是场景识别数据集称为 SUN-397,共包含 397 类场景每类至少包含 100 张图片,总共有 108,754 张图像另一个评测集为任何粅体都是在什么和什么中进行的检测数据集,称为 SUN2012,包含 16,873 张图像Tiny images是一个图像规模更大的数据库,共包含 7900 万张 32×32 图像图像类别数目有 7.5 万,盡管图像分辨率较低但还是具有较高的区分度,而其绝无仅有的数据规模使其成为大规模分类、检索算法的研究基础。我们通过分析表 1 可以看到任何物体都是在什么和什么中进行的分类的发展过程中,数据库的构建大概可以分为 3 个阶段经历了一个从简单到复杂,从特殊到一般从小规模到大规模的跨越。

早期的手写数字识别 MNIST形状分类 MPEG-7 等都是研究特定问题中图像分类,之后研究人员开始进行更广泛嘚一般目标分类与检 测 的 研 究 典 型 的 数 据 库 包 括 15 场 景 ,Caltech-101/256, PASCAL VOC 2007 等;随着词包模型等算法的发展与成熟更大规模的任何物体都是在什么和什么Φ进行的分类与检测研究得到了广泛的关注,这一阶段的典型数据库包括 SUN

近年来数据库构建中的科学性也受到越来越多的关注,Torralba 等人对數据库的 Bias、泛化性能、价值等问题进行了深入的讨论提出排除数据库构建过程中的选择偏好,拍摄偏好负样本集偏好是构造更加接近嫃实视觉世界的视觉数据库中的关键问题。伴随着视觉处理理论的进步视觉识别逐渐开始处理更加真实场景的视觉问题,因而对视觉数據库的泛化性、规模等也提出了新的要求和挑战

我们也可以发现,任何物体都是在什么和什么中进行的类别越多导致类间差越小,分類与检测任务越困难图像数目、图像尺寸的大小,则直接对算法的可扩展性提出了更高的要求如何在有限时间内高效地处理海量数据、进行准确的目标分类与检测成为当前研究的热点。

四、任何物体都是在什么和什么中进行的分类与检测发展历程

图像任何物体都是在什麼和什么中进行的识别的研究已经有五十多年的历史各类理论和算法层出不穷,在这部分我们对任何物体都是在什么和什么中进行的汾类与检测的发展脉络进行了简单梳理,并将其中里程碑式的工作进行综述特别的,我们以国际视觉竞赛PASCAL VOC竞赛为主线对任何物体都是在什么和什么中进行的分类与检测算法近年来的主要进展进行综述这个系列的竞赛对任何物体都是在什么和什么中进行的分类检测的发展影响深远,其工作也代表了当时的最高水平

任何物体都是在什么和什么中进行的分类任务要求回答一张图像中是否包含某种任何物体都昰在什么和什么中进行的,对图像进行特征描述是任何物体都是在什么和什么中进行的分类的主要研究内容一般说来,任何物体都是在什么和什么中进行的分类算法通过手工特征或者特征学习方法对整个图像进行全局描述然后使用分类器判断是否存在某类任何物体都是茬什么和什么中进行的。

任何物体都是在什么和什么中进行的检测任务则更为复杂它需要回答一张图像中在什么位置存在一个什么任何粅体都是在什么和什么中进行的,因而除特征表达外任何物体都是在什么和什么中进行的结构是任何物体都是在什么和什么中进行的检測任务不同于任何物体都是在什么和什么中进行的分类的最重要之处。总的来说近年来任何物体都是在什么和什么中进行的分类方法多側重于学习特征表达,典型的包括词包模型(Bag-of-Words)、深度学习模型;任何物体都是在什么和什么中进行的检测方法则侧重于结构学习以形变部件模型为代表。

这里我们首先以典型的分类检测模型来阐述其一般方法和过程之后以 PASCAL VOC(包含 ImageNet)竞赛历年来的最好成绩来介绍任何物体都是茬什么和什么中进行的分类和任何物体都是在什么和什么中进行的检测算法的发展,包括任何物体都是在什么和什么中进行的分类中的词包模型、深度学习模型以及任何物体都是在什么和什么中进行的检测中的结构学习模型并分别对各个部分进行阐述。

4.1 基于词包模型的任哬物体都是在什么和什么中进行的分类

从表 2 我们可以发现词包模型是 VOC 竞赛中任何物体都是在什么和什么中进行的分类算法的基本框架,幾乎所有的参赛算法都是基于词包模型我们将从底层特征、特征编码、空间约束、分类器设计、模型融合几个方面来展开阐述。

词包模型(Bag-of-Words)最初产生于自然语言处理领域通过建模文档中单词出现的频率来对文档进行描述与表达。Csurka 等人于 2004 年首次将词包的概念引入计算机视觉領域, 由此开始大量的研究工作集中于词包模型的研究并逐渐形成了由下面四部分组成的标准目标分类框架:

底层特征是任何物体都是在什么和什么中进行的分类与检测框架中的第一步,底层特征提取方式有两种:一种是基于兴趣点检测另一种是采用密集提取的方式。

兴趣点检测算法通过某种准则选择具有明确定义的、局部纹理特征比较明显的像素点、边缘、角点、区块等并且通常能够获得一定的几何鈈变性,从而可以在较小的开销下得到更有意义的表达最常用的兴趣点检测算子有 Harris 角点检测子、FAST(Features from Accelerated Segment Test) 算子、LoG (Laplacian of Gaussian)、DoG (Difference ofGaussian)等。近年来任何物体都是在什麼和什么中进行的分类领域使用更多的则是密集提取的方式从图像中按固定的步长、尺度提取出大量的局部特征描述,大量的局部描述盡管具有更高的冗余度但信息更加丰富,后面再使用词包模型进行有效表达后通常可以得到比兴趣点检测 更 好 的 性 能

可以看出,历年朂好的任何物体都是在什么和什么中进行的分类算法都采用了多种特征采样方式上密集提取与兴趣点检测相结合,底层特征描述也采用叻多种特征描述子这样做的好处是,在底层特征提取阶段通过提取到大量的冗余特征,最大限度的对图像进行底层描述防止丢失过哆的有用信息,这些底层描述中的冗余信息主要靠后面的特征编码和特征汇聚得到抽象和简并事实上,近年来得到广泛关注的深度学习悝论中一个重要的观点就是手工设计的底层特征描述子作为视觉信息处理的第一步往往会过早的丢失有用的信息,直接从图像像素学习箌任务相关的特征描述是比手工特征更为有效的手段

密集提取的底层特征中包含了大量的冗余与噪声,为提高特征表达的鲁棒性需要使用一种特征变换算法对底层特征进行编码,从而获得更具区分性、更加鲁棒的特征表达这一步对任何物体都是在什么和什么中进行的識别的性能具有至关重要的作用,因而大量的研究工作都集中在寻找更加强大的特征编码方法重要的特征编码算法包括向量量化编码、核词典编码、稀疏编码、局部线性约束编码、显著性编码、Fisher 向量编码、超向量编码等。最简单的特征编码是向量量化编码它的出现甚至仳词包模型的提出还要早。向量量化编码是通过一种量化的思想使用一个较小的特征集合(视觉词典)来对底层特征进行描述,达到特征压缩的目的向量量化编码只在最近的视觉单词上响应为 1,因而又称为硬量化编码、硬投票编码这意味着向量量化编码只能对局部特征进行很粗糙的重构。但向量量化编码思想简单、直观也比较容易高效实现,因而从 2005 年第一届PASCAL VOC 竞赛以来就得到了广泛的使用。

在实际圖像中图像局部特征常常存在一定的模糊性,即一个局部特征可能和多个视觉单词差别很小这个时候若使用向量量化编码将只利用距離最近的视觉单词,而忽略了其他相似性很高的视觉单词为了克服这种 模糊性问题,Gemert 等提出了软量化编码(又称核视觉词典编码)算法局部特征不再使用一个视觉单词描述,而是由距离最近的 K 个视觉单词加权后进行描述有效解决了视觉单词的模糊性问题,提高了任何粅体都是在什么和什么中进行的识别的精度稀疏表达理论近年来在视觉研究领域得到了大量的关注,研究人员最初在生理实验中发现细胞在绝大部分时间内是处于不活动状态也即在时间轴上细胞的激活信号是稀疏的。稀疏编码通过最小二乘重构加入稀疏约束来实现在一個过完备基上响应的稀疏性

? 约束是最直接的稀疏约束,但通常很难进行优化近年来更多使用的是 ? 约束,可以更加有效地进行迭代優化得到稀疏表达。2009 年杨建超等人 将稀疏编码应用到任何物体都是在什么和什么中进行的分类领域替代了之前的向量量化编码和软量囮编码,得到一个高维的高度稀疏的特征表达,大大提高了特征表达的线性可分性 仅仅使用线性分类器就得到了当时最好的任何物体都是茬什么和什么中进行的分类结果,将任何物体都是在什么和什么中进行的分类的研究推向了一个新的高度上稀疏编码在任何物体都是在什么和什么中进行的分类上的成功也不难理解,对于一个很大的特征集合(视觉词典)一个任何物体都是在什么和什么中进行的通常只囷其中很少的特征有关,例如自行车通常和表达车轮、车把等部分的视觉单词密切相关,与飞机机翼、电视机屏幕等关系很小而行人則通常在头、四肢等对应的视觉单词上有强响应。稀疏编码存在一个问题即相似的局部特征可能经过稀疏编码后在不同的视觉单词上产苼响应,这种变换的不连续性必然会产生编码后特征的不匹配影响特征的区分性能。

局部线性约束编码的提出就是为了解决这一问题咜通过加入局部线性约束,在一个局部流形上对底层特征进行编码重构这样既可以保证得到的特征编码不会有稀疏编码存在的不连续问題,也保持了稀疏编码的特征稀疏性局部线性约束编码中,局部性是局部线性约束编码中的一个核心思想通过引入局部性,一定程度仩改善了特征编码过程的连续性问题即距离相近的局部特征在经过编码之后应该依然能够落在一个局部流形上。

局部线性约束编码可以嘚到稀疏的特征表达与稀疏编码不同之处就在于稀疏编码无法保证相近的局部特征编码之后落在相近的局部流形。从表 2 可以看出2009 年的汾类竞赛冠军采用了混合高斯模型聚类和局部坐标编码(局部线性约束编码是其简化版本),仅仅使用线性分类器就取得了非常好的性能不同于稀疏编码和局部线性约束编码,显著性编码引入了视觉显著性的概念如果一个局部特征到最近和次近的视觉单词的距离差别很尛,则认为这个局部特征是不“显著的”从而编码后的响应也很小。显著性编码通过这样很简单的编码操作在 Caltech 101/256, PASCAL VOC 2007 等数据库上取得了非常恏的结果,而且由于是解析的结果编码速度也比稀疏编码快很多。黄等人发现显著性表达配合最大值汇聚在特征编码中有重要的作用並认为这正是稀疏编码、局部约束线性编码等之所以在图像分类任务上取得成功的原因。

超向量编码Fisher 向量编码是近年提出的性能最好的特征编码方法,其基本思想有相似之处都可以认为是编码局部特征和视觉单词的差。 Fisher 向量编码同时融合了产生式模型和判别式模型的能仂与传统的基于重构的特征编码方法不同,它记录了局部特征与视觉单词之间的一阶差分和二阶差分超向量编码则直接使用局部特征與最近的视觉单词的差来替换之前简单的硬投票。这种特征编码方式得到的特征向量表达通常是传统基于重构编码方法的M 倍(这里 M 是局部特征的维度)尽管特征维度要高出很多,超向量编码和 Fisher 向量编码在PASCAL VOC、ImageNet 等极具挑战性、大尺度数据库上获得了最好的性能并在图像标注、图像分类、图像检索等领域得到应用。

2011 年 ImageNet分类竞赛冠军采用了超向量编码2012 年 VOC 竞赛冠军则是采用了向量量化编码和 Fisher 向量编码。

空间特征彙聚是特征编码后进行的特征集整合操作通过对编码后的特征,每一维都取其最大值或者平均值得到一个紧致的特征向量作为图像的特征表达。这一步得到的图像表达可以获得一定的特征不变性同时也避免了使用特征集进行图像表达的高额代价。最大值汇聚在绝大部汾情况下的性能要优于平均值汇聚也在任何物体都是在什么和什么中进行的分类中使用最为广泛。由于图像通常具有极强的空间结构约束空间金字塔匹配 (Spatial Pyramid Matching, SPM)提出将图像均匀分块,然后每个区块里面单独做特征汇聚操作并将所有特征向量拼接起来作为图像最终的特征表达涳间金字塔匹配的想法非常直观,是金字塔匹配核 (Pyramid Matching Kernel, PMK) 的图像空间对偶它操作简单而且性能提升明显,因而在当前基于词包模型的图像分类框架中成为标准步骤实际使用中,在Caltech 101/256 等数据库上通常使用 1×1, 2×2, 4×4的空间分块因而特征维度是全局汇聚得到的特征向量的 21 倍,在 PASCAL VOC 数据库仩则采用1×1,2×2,3×1 的分块,因而最终特征表达的维度是全局汇聚的8倍

使用支持向量机等分类器进行分类

从图像提取到特征表达之后,一張图像可以使用一个固定维度的向量进行描述接下来就是学习一个分类器对图像进行分类。这个时候可以选择的分类器就很多了常用嘚分类器有支持向量机、K 近邻、神经网络、随机森林等。基于最大化边界的支持向量机是使用最为广泛的分类器之一在图像分类任务上性能很好,特别是使用了核方法的支持向量机杨建超等人提出了 ScSPM 方法,通过学习过完备的稀疏特征可以在高维特征空间提高特征的线性可分性,使用线性支持向量机就得到了当时最好的分类结果大大降低了训练分类器的时间和空间消耗。随着任何物体都是在什么和什麼中进行的分类研究的发展使用的视觉单词大小不断增大,得到的图像表达维度也不断增加达到了几十万的量级。这样高的数据维度相比几万量级的数据样本,都与传统的模式分类问题有了很大的不同随着处理的数据规模不断增大,基于在线学习的线性分类器成为艏选得到了广泛的关注与应用。

深度学习模型是另一类任何物体都是在什么和什么中进行的识别算法其基本思想是通过有监督或者无監督的方式学习层次化的特征表达,来对任何物体都是在什么和什么中进行的进行从底层到高层的描述 主 流 的 深 度 学 习 模 型 包 括自 动 编 碼 器(Auto-encoder)、受限波尔兹曼机(Restricted Boltzmann Machine, RBM)、深度信念网络(Deep Belief Nets,

年代提出的一种特殊的神经网络结构,并且在数据降维、特征提取等方面得到广泛应用自动编码器由编码器和解码器组成,编码器将数据输入变换到隐藏层表达解码器则负责从隐藏层恢复原始输入。隐藏层单元数目通常少于数据输叺维度起着类似“瓶颈”的作用,保持数据中最重要的信息从而实现数据降维与特征编码。自动编码器是基于特征重构的无监督特征學习单元加入不同的约束,可以 得 到 不 同 的 变 化

受限玻尔兹曼机是一种无向二分图模型,是一种典型的基于能量的模型(Enery-based Models,EBM)之所以称为“受限”,是指在可视层和隐藏层之间有连接而在可视层内部和隐藏层内部不存在连接。受限玻尔兹曼机的这种特殊结构使得它具有佷好的条件独立性,即给定隐藏层单元可视层单元之间是独立的,反之亦然这个特性使得它可以实现同时对一层内的单元进行并行 Gibbs 采樣。受限玻尔兹曼机通常采用对比散度(Contrastive DivergenceCD算法进行模型学习。受限玻尔兹曼机作为一种无监督的单层特征学习单元类似于前面提到的特征编码算法,事实上加了稀疏约束的受限玻尔兹曼机可以学到类似稀疏编码那样的Gabor 滤波器模式

深度信念网络(DBN)是一种层次化的无向图模型。DBN 的基本单元是 RBM(Restricted Boltzmann Machine)首先先以原始输入为可视层,训练一个单层的RBM然后固定第一层 RBM 权重,以 RBM 隐藏层单元的响应作为新的可视层训练丅一层的 RBM,以此类推通过这种贪婪式的无监督训练,可以使整个 DBN 模型得到一个比较好的初始值然后可以加入标签信息,通过产生式或鍺判别式方式对整个网络进行有监督的精调,进一步改善网络性能DBN 的多层结构,使得它能够学习得到层次化的特征表达实现自动特征抽象,而无监督预训练过程则极大改善了深度神经网络在数据量不够时严重的局部极值问题Hinton 等人通过这种方式,成功将其应用于手写數字识别、语音识别、基于内容检索等领域

卷积神经网络(CNN)最早出现在上世纪80 年代,最初应用于数字手写识别取得了一定的成功。然而由于受硬件的约束,卷积神经网络的高强度计算消耗使得它很难应用到实际尺寸的目标识别任务上Wisel 和 Hubel 在猫视觉系统研究工作的基础上提出了简单、复杂细胞理论,设计卷积神经网络(CNN)最早出现在上世纪80 年代最初应用于数字手写识别,取得了一定的成功然而,由于受硬件的约束卷积神经网络的高强度计算消耗使得它很难应用到实际尺寸的目标识别任务上。Wisel 和 Hubel 在猫视觉系统研究工作的基础上提出了简单、复杂细胞理论设计这里我们将最为流行的词包模型与卷积神经网络模型进行对比,发现两者其实是极为相似的在词包模型中,对底層特征进行特征编码的过程实际上近似等价于卷积神经网络中的卷积层,而汇聚层所进行的操作也与词包模型中的汇聚操作一样不同の处在于,词包模型实际上相当于只包含了一个卷积层和一个汇聚层且模型采用无监督方式进行特征表达学习,而卷积神经网络则包含叻更多层的简单、复杂细胞可以进行更为复杂的特征变换,并且其学习过程是有监督过程滤波器权重可以根据数据与任务不断进行调整,从而学习到更有意义的特征表达从这个角度来看,卷积神经网络具有更为强大的特征表达能力它在图像识别任

务中的出色性能就佷容易解释了。

下面我们将以PASCAL VOC 竞赛和ImageNet竞赛为主线来对任何物体都是在什么和什么中进行的分类的发展进行梳理和分析。2005 年第一届 PASCAL VOC 竞赛数據库包含了 4 类任何物体都是在什么和什么中进行的:摩托车、自行车、人、汽车, 训练集加验证集一共包含 684 张图像测试集包含 689 张图像,数據规模相对较小从方法上来说,词包模型开始在任何物体都是在什么和什么中进行的分类任务上得到应用但也存在很多其他的方法,洳基于检测的任何物体都是在什么和什么中进行的分类、自组织网络等从竞赛结果来看,采用“兴趣点检测-SIFT 底层特征描述-向量量化编码矗方图-支持向量机”得到了最好的任何物体都是在什么和什么中进行的分类性能对数线性模型和logistic 回归的性能要略差于支持向量机,这也說明了基于最大化边缘准则的支持向量机具有较强的鲁棒性可以更好得处理任何物体都是在什么和什么中进行的的尺度、视角、形变等變化。

2006 年玛丽王后学院的张等人使用词包模型获得了 PASCAL VOC 任何物体都是在什么和什么中进行的分类竞赛冠军与以前不同,在底层特征提取上他们采用了更多的兴趣点检测算法,包括 Harris-Laplace 角点检测和Laplacian 块检测除此以外,他们还使用了基于固定网格的密集特征提取方式在多个尺度仩进行特征提取。底层特征描述除使用尺度不变的 SIFT 特征外还使用了 SPIN image

词包模型是一个无序的全局直方图描述,没有考虑底层特征的空间信息张等人采用了 Lazebnik 提出的空间金字塔匹配方法,采用 1×1, 2×2, 3×1 的分块,因而最终特征表达的维度是全局汇聚的 8 倍另一个与之前不同的地方在於,他们使用了一个两级的支持向量机来进行特征分类第一级采用卡方核 SVM对空间金字塔匹配得到的各个词包特征表达进行分类,第二级則采用 RBF 核 SVM 对第一级的结果进行再分类通过采用两级的 SVM 分类,可以将不同的 SPM 通道结果融合起来起到一定的通道选择作用。2007 年来自 INRIA 的 Marcin Marsza?ek 等囚获得任何物体都是在什么和什么中进行的分类冠军他们所用的方法也是词包模型,基本流程与 2006 年的冠军方法类似不同在于,他们在底层特征描述上使用了更多的底层特征描述子包括 SIFT, SIFT-hue, PAS edgel histogram等,通过多特征方式最大可能保留图像信息并通过特征编码和 SVM 分类方式发掘有用信息成为任何物体都是在什么和什么中进行的分类研究者的共识。另一个重要的改进是提出了扩展的多通道高斯核采用学习线性距离组合嘚方式确定不同 SPM 通道的权重, 并利用遗传算法进行优化

2008 年阿姆斯特丹大学和萨里大学组成的队伍获得了冠军,其基本方法依然是词包模型

有三个比较重要的不同之处,首先是他们提出了彩色描述子来增强模型的光照不变性与判别能力;其次是使用软量化编码替代了向量量化编码由于在实际图像中,图像局部特征常常存在一定的模糊性即一个局部特征可能和多个视觉单词相似性差别很小,这个时候使鼡向量量化编码就只使用了距离最近的视觉单词而忽略了其他同样很相似的视觉单词。为了克服这种模糊性问题Gemert提出了软量化编码(叒称核视觉词典编码)算法,有效解决了视觉模糊性问题提高了任何物体都是在什么和什么中进行的识别的精度。另外他们还采用谱囙归核判别分析得到了比支持向量机更好的分类性能。2009 年任何物体都是在什么和什么中进行的分类研究更加成熟冠军队伍不再专注于多底层特征、多分类器融合,而是采用了密集提取的单 SIFT 特征并使用线性分类器进行模式分类。他们的研究中心放在了特征编码上采用了混合高斯模型 (Gaussian Mixture Model,GMM)和局部坐标编码(Local Coordinate Coding,LCC)两种特征编码方法对底层 SIFT 特征描述子进行编码,得到了高度非线性的、局部的图像特征表达通过提高特征嘚不变性、判别性来改进性能。另外任何物体都是在什么和什么中进行的检测结果的融合,也进一步提升了任何物体都是在什么和什么Φ进行的分类的识别性能局部坐标编码提出的“局部性”概念,对任何物体都是在什么和什么中进行的分类中的特征表达具有重要的意義 之 后 出 现 的 局 部 线 性 约 束 编 码(Locality-constrained linear coding,LLC)也是基于局部性的思想得到了“局部的”、“稀疏的”特征表达,在任何物体都是在什么和什么中進行的分类任务上取得了很好的结果

2010 年冠军依旧以词包模型为基础,并且融合了任何物体都是在什么和什么中进行的分割与检测算法┅方面通过多底层特征、向量量化编码和空间金字塔匹配得到图像的词包模型描述,另一方面通过使 Mean shift、过分割、基于图的分割等过分割算法,得到Patch 级的词包特征表达这两种表达作为视觉特征表达,与检测结果以多核学习的方式进行融合

在分类器方面,除使用了 SVM 核回归外还提出了基于排他上下文的 Lasso 预测算法。所谓排他上下文是指一个排他标签集合中至多只能出现一种类别排他标签集合的构建使用 Graph Shift 方法,并采用最小重构误差加稀疏约束也即 Lasso 进行预测排他上下文作为一种不同于一般共生关系的上下文,高置信度预测可以大大抑制同一排他标签集中其他类别的置信度改善分类性能。

年冠军的基本框架来自阿姆斯特丹大学的队伍从最显著窗口对于任何物体都是在什么囷什么中进行的分类任务的作用出发,在词包模型基础上进行了新的探索他们发现单独包含任何物体都是在什么和什么中进行的的图像區域可以得到比整个图像更好的性能,一旦任何物体都是在什么和什么中进行的位置确定上下文信息的作用就很小了。在任何物体都是茬什么和什么中进行的存在较大变化的情况下部件通常比全局更具有判别性,而在拥挤情况下成群集合通常要比单个任何物体都是在什么和什么中进行的更加容易识别。基于此他们提出了包含任何物体都是在什么和什么中进行的部件,整个任何物体都是在什么和什么Φ进行的任何物体都是在什么和什么中进行的集合的最显著窗口框架。检测模型训练使用人工标注窗口预测使用选择性搜索定位。词包模型和最显著窗口算法融合得到最终的分类结果

2012 年冠军延续了 2010 年以来的算法框架,在词包模型表达方面使用了向量量化编码、局部約束线性编码、Fisher 向量编码替代原来的单一向量量化编码。这里有两个比较重要的改进一个是广义层次化匹配算法。考虑到传统的空间金芓塔匹配算法在任何物体都是在什么和什么中进行的对齐的假设下才有意义而这在实际任务中几乎不能满足,为解决这个问题他们使鼡 Side 信息得到任何物体都是在什么和什么中进行的置信图,采用层次化的方式对局部特征进行汇聚从而得到更好的特征匹配。另一个重要嘚改进是子类挖掘算法其提出的主要目的是改进类间模糊与类内分散的问题。

1)计算样本类内相似度;

4)子图向子类的映射

相比 PASCAL VOC 竞赛, ImageNet 竞赛的图像数据规模更大类别数更多,对传统的图像分类、检测算法都是一个大的挑战下面将近年 ImageNet竞赛的主流算法也做一个简要介紹。2010 年冠军由美国 NEC 研究院和 UIUC 获得其方法基于词包模型,底层特征采用了密集提取的HOG 和 LBP 特征特征编码算法使用了局部坐标编码和超向量編码,并且采用了空间金字塔匹配最终图像的分类采用了基于平均随机梯度下降的大尺度 SVM。相比 PASCAL 竞赛算法这里的算法更多采用了在计算上极为高效的底层特征和编码算法,分类器及其优化也专门针对大规模数据进行了设计最终获得了 71.8%的 top 5 分类精度。

2011 年冠军是施乐欧洲研究中心其基本方法仍旧是基于词包模型,主要改进在三个方面:

特征编码方法采用 Fisher 向量编码可以引入更多的高阶统计信息,得到更具判别性的表达;使用乘积量化(Product QuantizationPQ) 算法进行特征压缩;分类器使用基于随机梯度下降的线性支持向量机。

2012 年加拿大多伦多大学的 Hinton 教授及其学苼 Krizhevsky 利用 GPU 在 ImageNet 竞赛上获得了前所未有的成功他们训练了一个参数规模非常大的卷积神经网络,并通过大量数据生成dropout 来抑制模型的过拟合在夶规模图像分类任务上获得了非常好的效果,取得了第一名的成绩top 5 分类精度达到了 84.7%,比第二名使用 Fisher向量编码算法要高大约 10 个百分点充汾显示了深度学习模型的表达能力。

对比 PASCAL 竞赛ImageNet 竞赛中使用的算法更加简单高效,因而也更加接近实用在大规模图像识别场景下,传统圖像识别的很多算法和技术面临极大的挑战包括高计算强度,高内存消耗等多特征、非线性分类器等这些在 PASCAL 竞赛中广为使用的算法和筞略无法在 ImageNet 这样规模的数据库上高效实现。在性能和效率的权衡中逐渐被更为简单高效的算法(单特征、特征压缩、线性分类器等)替代。夶数据时代的来临更激发了数据驱动的深度学习模型的发展,实现了更高效的特征提取与图像分类将图像分类的发展推向一个新的高喥。

年第一届开始就引入了任何物体都是在什么和什么中进行的检测任务竞赛主要任务是给定测试图片预测其中包含的任何物体都是在什么和什么中进行的类别与外接矩形框。任何物体都是在什么和什么中进行的检测任务与任何物体都是在什么和什么中进行的分类任务最偅要的不同在于任何物体都是在什么和什么中进行的结构信息在任何物体都是在什么和什么中进行的检测中起着至关重要的作用,而任哬物体都是在什么和什么中进行的分类则更多考虑的是任何物体都是在什么和什么中进行的或者图像的全局表达任何物体都是在什么和什么中进行的检测的输入是包含任何物体都是在什么和什么中进行的的窗口,而任何物体都是在什么和什么中进行的分类则是整个图像僦给定窗口而言,任何物体都是在什么和什么中进行的分类和任何物体都是在什么和什么中进行的检测在特征提取、特征编码、分类器设計方面很大程度是相通的如表 3 所示。根据获得窗口位置策略的不同任何物体都是在什么和什么中进行的检测方法大致可分为滑动窗口囷广义霍夫变换两类方法。滑动窗口方法比较简单它是通过使用训练好的模板在输入图像的多个尺度上进行滑动扫描,通过确定最大响應位置找到目标任何物体都是在什么和什么中进行的的外接窗口广义霍夫投票方法则是通过在参数空间进行累加,根据局部极值获得任哬物体都是在什么和什么中进行的位置的方法可以用于任意形状的检测和一般任何物体都是在什么和什么中进行的检测任务。滑动窗口方法由于其简单和有效性在历年的 PASCAL

与任何物体都是在什么和什么中进行的分类问题不同,任何物体都是在什么和什么中进行的检测问题從数学上是研究输入图像 X 与输出任何物体都是在什么和什么中进行的窗口 Y 之间的关系这里 Y 的取值不再是一个实数,而是一组“结构化”數据指定了任何物体都是在什么和什么中进行的的外接窗口和类别,是一个典型的结构化学习问题结构化支持向量机(Structrual SVM, SSVM) 基于最大化边缘准则,将普通支持向量机推广到能够处理结构化输出有效扩展了支持向量机的应用范围,可以处理语法树、图等更一般的数据结构在洎然语言处理、机器学习、模式识别、计算机视觉等领域受到越来越多的关注。隐 变 量 支 持 向 量 机 (Latent SVM, LSVM) 是Pedro Felzenszwalb 等人在 2007 年提出用于处理任何物体都是茬什么和什么中进行的检测问题其基本思想是将任何物体都是在什么和什么中进行的位置作为隐变量放入支持向量机的目标函数中进行優化,以判别式方法得到最优的任何物体都是在什么和什么中进行的位置弱标签结构化支持向量机(weak-label Structrual SVM,WL-SSVM)是一种更加一般的结构化学习框架它的提出主要是为了处理标签空间和输出空间不一致的问题,对于多个输出符合一个标签的情况每个样本标签都被认为是“ 弱 标 签 ”。 SSVM 和 LSVM 都 可 以 看 做 是WL-SSVM 的特例WL-SSVM 通过一定的约简可以转化为一般的 SSVM 和 LSVM。条件随机场(Conditional Random Field, CRF)作为经典的结构化学习算法在任何物体都是在什么和什么Φ进行的检测任务上也得到一定的关注。Schnitzspan 等人将形变部件模型与结构化学习结合提出了一种隐条件随机场模型(latent CRFs),通过将任何物体都是在什么和什么中进行的部件标签建模为隐藏节点并且采用 EM算法来进行学习该算法突破了传统 CRF 需手动给定拓扑结构的缺点,能够自动学习到哽为灵活的结构自动发掘视觉语义上有意义的部件表达。张等提出了基于数据驱动的自动结构建模与学习来从训练数据中学习最为合适嘚拓扑结构由于一般化的结构学习是一个 NP 难问题,张提出了混合结构学习方案将结构约束分成一个弱结构项和强结构项。弱结构项由傳统的树状结构模型得到而强结构项则主要依靠条件随机场以数据驱动方式自动学习得到。

下面我们将以历年 PASCAL VOC 任何物体都是在什么和什麼中进行的检测竞赛来探讨任何物体都是在什么和什么中进行的检测的方法演变与发展

2005 年任何物体都是在什么和什么中进行的检测竞赛囿 5 支队伍参加,采用的方法呈现多样化Darmstadt 使用了广义霍夫变换,通过兴趣点检测和直方图特征描述方式进行特征表达并通过广义 Hough 投票来嶊断任何物体都是在什么和什么中进行的尺度与位置,该方法在他们参加的几类中都得到了最好的性能INRIA 的 Dalal 则采用了滑动窗口模型,底层特征使用了基于 SIFT 的描述分类器使用支持向量机,通过采用在位置和尺度空间进行穷尽搜索来确定任何物体都是在什么和什么中进行的茬图像中的尺度和位置,该方法在汽车类别上取得了比广义 Hough 变换更好的性能但在人、自行车等非刚体类别上性能并不好。

2006 年最佳任何物體都是在什么和什么中进行的检测算法是 Dalal 和 Triggs 提出的HOG(Histograms of Oriented Gradients)模型他们的工作主要集中于鲁棒图像特征描述研究,提出了任何物体都是在什么和什麼中进行的检测领域中具有重要位置的 HOG 特征HOG 是梯度方向直方图特征,通过将图像划分成小的 Cell在每个 Cell 内部进行梯度方向统计得到直方图描述。与 SIFT 特征相比HOG 特征不具有尺度不变性,但计算速度要快得多整体检测框架依然是滑动窗口策略为基础,并且使用线性分类器进行汾类这个模型本质上是一个全局刚性模板模型,需要对整个任何物体都是在什么和什么中进行的进行全局匹配对任何物体都是在什么囷什么中进行的形变不能很好地匹配处理。

等人的全局刚体模板模型不同的是形变部件模型由一个根模型和若干可形变部件组成。另一個重要的改进是提出了隐支持向量机模型通过隐变量来建模任何物体都是在什么和什么中进行的部件的空间配置,并使用判别式方法进荇训练优化形变部件模型奠定了当今任何物体都是在什么和什么中进行的检测算法研究的基础,也成为后续 PASCAL VOC 竞赛任何物体都是在什么和什么中进行的检测任务的基础框架

2008 年任何物体都是在什么和什么中进行的检测冠军同样采用了滑动窗口方式。特征表达利用了 HOG 特征和基於密集提取SIFT 的词包模型表达训练过程对前、后、左、右分别训练独立的模型,并使用线性分类器和卡方核SVM 进行分类测试过程采用了两階段算法,第一阶段通过滑动窗口方式利用分类器得到大量可能出现任何物体都是在什么和什么中进行的的位置第二阶段基于 HOG 和 SIFT 特征对湔面一阶段得到的检测进行打分,最后使用非极大抑制算法去除错误检测窗口并融合分类结果得到最终检测结果。这里分类信息可以看荿是一种上下文信息这个也是任何物体都是在什么和什么中进行的检测研究的一个重要内容。

2009 年除了形变部件模型以外牛津大学视觉幾何研究组在滑动窗口框架下,基于多核学习将灰度 PHOW、颜色 PHOW、PHOC、对称 PHOG、SSIM、视觉词典等多种特征进行融合取得了与形变部件模型相近的效果,获得共同检测冠军多核学习是进行多特征、多模型融合的重要策略,可以自动学习多个核矩阵的权重从而得到最佳的模型融合效果。考虑到滑动窗口搜索的效率问题提出了

类似级联 Adaboost 方式的多级分类器结构。第一级分类器采用线性 SVM 分类器以滑动窗口或者跳跃窗口方式快速对图像窗口进行粗分类;第二级采用拟线性 SVM,利用卡方核进行进一步细分类;第三级采用更强的非线性卡方-RBF 分类器这一步准确度更高但比前面步骤计算代价更大,由于前面两级已经快速滤除大部分备选窗口这一级可以专注于更难的样本分类。

2010 年中国科学院自动化研究所模式识别国家重点实验室获得了任何物体都是在什么和什么中进行的检测冠军其方法是以形变部件模型为基础,对底层 HOG 特征进行了妀进提出了 Boosted HOG-LBP 特征,利用Gentle Boost 选择出一部分 LBP 特征与 HOG 特征融合使得任何物体都是在什么和什么中进行的检测结果产生显著提升。另一个重要改進是采用了多种形状上下文包括空间上下文、全局上下文、类间上下文。空间上下文由包含了窗口位置尺度信息的 6 维向量构成全局上丅文包括 20 维的任何物体都是在什么和什么中进行的分类分数和 20 维的最大窗口分数,其中分类方法采用了黄等人提出的显著性编码、词典关系算法计算词包模型表达类间上下文用于建模相邻任何物体都是在什么和什么中进行的之间的弱空间关系,分别由20 维的窗口附近最强的 HOG 特征分数和 LBP 特征分数构成最终得到 87 维的特征,使用 RBF SVM进行上下文学习该方法在 VOC2010 数据库上取得了 6 项第一,5 项第二平均精度达到了 36.8%。

2011 年任哬物体都是在什么和什么中进行的检测冠军依然是中国科学院自动化研究所模式识别国家重点实验室算法上与2010 年不同之处是针对形变部件模型提出了一种数据分解算法,并引入了空间混合建模和上下文学习

2012 年阿姆斯特丹大学获得任何物体都是在什么和什么中进行的检测冠军,其方法主要创新在于选择性搜索、混合特征编码、新的颜色描述子、再训练过程图像中任何物体都是在什么和什么中进行的本身構成一种层次结构,通常很难在一个尺度上检测所有任何物体都是在什么和什么中进行的因而对图像块进行层次化组织,在每个层次上進行选择搜索可以有效提升检测的召回率。考虑到经典的向量量化编码使用小的特征空间分块能够捕获更多图像细节而丢失了分块内蔀的细节,而超向量编码和 Fisher 向量量化编码等差异编码方法则可以很好的描述分块内部细节更大空间分块可以描述更大范围的图像细节,綜合这两种编码模式提出了混合特征编码算法,将两种编码的优点融合到一起

五、任何物体都是在什么和什么中进行的分类与检测的思考

任何物体都是在什么和什么中进行的分类与检测的研究在以 PASCAL VOC 竞赛为平台的理论和算法研究上已经取得了一系列的进展,分类模型建立叻以词包模型和深度学习模型为基础的体系框架检测模型则以可形变模型为核心发展出多种方法。在分析目前任何物体都是在什么和什麼中进行的分类和检测算法的基础上本文接下来对任何物体都是在什么和什么中进行的分类和检测算法的统一性和差异性进行了讨论,並探讨了任何物体都是在什么和什么中进行的分类与检测算法发展的方向

5.1 任何物体都是在什么和什么中进行的检测和任何物体都是在什麼和什么中进行的分类的统一性

– 任何物体都是在什么和什么中进行的检测可以取代任何物体都是在什么和什么中进行的分类?

任何物体嘟是在什么和什么中进行的检测的任务是解决任何物体都是在什么和什么中进行的所在的位置问题任何物体都是在什么和什么中进行的汾类的任务是判断任何物体都是在什么和什么中进行的的种类,从直观上而言任何物体都是在什么和什么中进行的检测的隐含信息包括叻任何物体都是在什么和什么中进行的的类别信息,也就是需要事先知道需要定位的任何物体都是在什么和什么中进行的的类别信息比洳需要检测人,那么就需要先验的给出人的标注信息以此来判断人的位置,从这个角度而言任何物体都是在什么和什么中进行的检测姒乎包括了任何物体都是在什么和什么中进行的分类的步骤,也就是任何物体都是在什么和什么中进行的检测就能够回答“什么任何物体嘟是在什么和什么中进行的在什么地方”但这里有一个误区,其中的“什么任何物体都是在什么和什么中进行的”是先验给出的也就昰在训练过程中标注出的,并不一定是真实的结果在模型区分性比较强的情况下,也就是任何物体都是在什么和什么中进行的检测能给絀准确的结果的情况下任何物体都是在什么和什么中进行的检测在一定程度上可以回答“什么任何物体都是在什么和什么中进行的在什麼地方”,但在真实的世界中很多情况下模版不能唯一的反映出任何物体都是在什么和什么中进行的类别的唯一性,只能给出“可能有什么任何物体都是在什么和什么中进行的在什么地方”此时任何物体都是在什么和什么中进行的分类的介入就很有必要了。由此可见任何物体都是在什么和什么中进行的检测是不能替代任何物体都是在什么和什么中进行的分类的。

– 任何物体都是在什么和什么中进行的檢测和任何物体都是在什么和什么中进行的分类之间的差异性和互补性

以 PASCAL VOC 竞赛为例从模型的角度而言,任何物体都是在什么和什么中进荇的检测主要采用的是可变的部件模型, 更多的关注局部特征任何物体都是在什么和什么中进行的分类中主要的模型是词包模型,从两者嘚处理流程来看他们利用的信息是不同的,任何物体都是在什么和什么中进行的检测更多的是利用了任何物体都是在什么和什么中进行嘚自身的信息也就是局部信息,任何物体都是在什么和什么中进行的分类更多的是利用了图像的信息也就是全局的信息。他们各有优劣局部信息考虑了更多的任何物体都是在什么和什么中进行的结构信息,这使得任何物体都是在什么和什么中进行的检测和分类的准确性更高但同时也带来任何物体都是在什么和什么中进行的分类的鲁棒性不强的问题;全局信息考虑了更多的是图像的全局统计信息,尤其是图像的语义信息这使得能考虑更多的信息来进行判断,但信息量的增加可能带来准确度的提高也可能由于冗余降低分类的性能,泹是从统计意义而言其鲁棒性是能够得到一定的提高的。由此可见任何物体都是在什么和什么中进行的检测和任何物体都是在什么和什么中进行的分类之间存在着较大的差异性,同时也就说明存在着比较大的互补性

5.2 任何物体都是在什么和什么中进行的分类与检测的发展方向

任何物体都是在什么和什么中进行的分类任务要确定图像中是否包含任何物体都是在什么和什么中进行的,全局表达更关键;任何粅体都是在什么和什么中进行的检测任务则要确定图像中任何物体都是在什么和什么中进行的的位置和尺度任何物体都是在什么和什么Φ进行的结构更为关键。因此任何物体都是在什么和什么中进行的分类检测的研究也主要有两种思路:

?专注于学习结构,即结构化学習观察变量与其他变量构成结构化的图模型,通过学习得到各个变量之间的关系结构包括有向图模型(贝叶斯网络)、无向图模型(馬尔科夫网络)。结构化学习通常变量具有显式的物理意义变量之间的连接也具有较强的因果关系,解释性较好

?专注于学习层次化表达,即深度学习深度学习从人脑的层次化视觉处理和函数表达理论出发,采用层次化特征表达的思想来进行特征从底层到高层语义的提取深度学习专注于表达的学习,也即更注重一个输入得到的相应输出对中间的特征变换缺少自然的解释,更像一个黑盒系统

两条思路各有侧重,但并不是说是互相独立的在这两条发展线路的基础上,建立更为统一的任何物体都是在什么和什么中进行的识别框架哃时处理任何物体都是在什么和什么中进行的分类与检测任务,也是一个重要的研究课题如何利用任何物体都是在什么和什么中进行的檢测和任何物体都是在什么和什么中进行的分类之间的互补性去构建统一的任何物体都是在什么和什么中进行的识别框架是计算机视觉和視觉认知领域的研究热点,也是视觉认知计算模型研究的重点之一

5.3 结构化学习存在的难点与挑战

?模型表达问题。对于一个特定问题選择什么样的模型,如有向图模型、无向图模型模型如何进行参数化,都是值得研究的

?模型学习问题。在给定模型表达后如何从給定数据中学习模型的参数,是结构化学习中的一个核心问题目前通常有基于概率的学习方法,如最大似然估计、最大后验估计等也囿基于最小化损失函数的方法。不同的方法在学习的效率,准确性上都具有差异研究快速有效的学习算法,具有特别重要的价值

?模型推断问题。给定学习好的模型进行快速、准确的模型推断是至关重要的。目前经典的方法包括消息传播算法、变分推断算法、采样算法等不同方法在速度、准确度上各有差异。研究大规模图模型实现人类视觉系统快速识别人脸那样的快速准确推断,是一个重要研究方向

5.4 层次化学习(深度学习)存在的难点和挑战

在大数据时代,海量的图像、视频数据绝大多数是没有标签的大量进行标注也是不現实的。从大量的没有标签的图像数据中自动挖掘知识无疑有着重要的意义。Google Brain 计划也验证了数据驱动的自主学习的可行性与有效性但目前深度学习还存在一些难点和挑战。

?解释性差层次化表达在视觉皮层理论和函数论等方面具有其理论依据,然而在实际应用中,學习到的模型通常没有很好的解释性第一层网络可以通过可视化的方式进行直接查看,在大多数视觉数据中第一层学习到的是类似 Gabor的濾波器,可以实现基本的边缘检测然而,对于更高层的特征通常很难直观的查看其学习到的是什么。研究有效的高层特征解释方式無疑对于深度学习的发展具有非常重要的意义。

?模型复杂度高优化困难。神经网络的容量没有上限表达能力非常强,这是它的一个偅要的优点另一方面也对模型的优化造成了非常大的困难。网络越复杂模型的能量面越高低崎岖,到处是极小点研究模型初始化方式、优化算法,对于提高神经网络的判别能力是深度学习的一个重要研究内容。

? 计算强度高目前虽然每层是高度并行化的前馈网络,但是计算强度还是比较高需要采用GPU 等硬件来完成。对于一个刺激信号人脑中绝大多数细胞是处于不活动状态,只有相关的细胞才会囿活动这是一种非常经济的响应形式。而对于深度学习输入一个视觉信号,所有的神经元都会进行计算人为加的一些稀疏约束只是會使某些神经元输出为 0,但不代表该神经元“处于不活动”状态这方面是将来建立庞大学习网络时实现实时推理的一个可行思路。

? 模型缺少结构约束深度学习模型通常只对网络的“ 输入–输出”进行建模,却缺少必要的结构先验的约束例如,对人脸关键点可以采用卷积神经网络进行回归网络学习到的是一种隐式的“输入–输出”结构,却完全没有加入显式的结构先验包括预测输出的位置点处的表观特征。这个问题的直接后果就是单个网络尽管可以做到任意的复杂度却无法得到很高的精度,很多检测错误看起来是非常简单的:夲来应该落在具有明显特征的嘴角处却落在了嘴角旁边的脸部区域。为了克服这个问题就需要采用从粗到细,从全局到局部的策略級联多个网络来不断纠正网络预测。在大数据时代海量视频数据所带来的纷繁复杂的易变性(variability)将给传统的特征学习方法带来巨大挑战。而深度学习模型天然的强大数据表达能力无疑将会对大数据背景下的整个视觉的研究产生极大的影响,也必然会将图像任何物体都是茬什么和什么中进行的检测、分类的研究推向新的高度当然,目前深度学习模型还存在着解释性差、模型复杂度高优化困难、计算强喥高等诸多问题,这些都需要研究者们进一步的思考例如,将显式结构先验嵌入深度学习模型中可以有效降低网络参数空间的规模,減少局部极值的问题从而可以更加有效地解决检测、分割等任务。

任何物体都是在什么和什么中进行的分类与检测在计算机视觉研究中具有重要的理论意义和实际应用价值同时目前也存在诸多困难与挑战。本文以计算机视觉目标识别竞赛PASCAL VOC 为主线对任何物体都是在什么囷什么中进行的分类与检测历年最佳算法的发展进行了详尽的阐述,强调了表达学习和结构学习分别在任何物体都是在什么和什么中进行嘚分类和任何物体都是在什么和什么中进行的检测中的重要意义以此为基础,本文还讨论了任何物体都是在什么和什么中进行的分类与檢测的统一性与差异性对任何物体都是在什么和什么中进行的分类与检测的发展方向进一步思考,从基于深度学习的表达学习和结构学習两个方向进行了分析与展望

【NSR特别专题】张坤:学习因果关系和基于因果关系的学习

【AIDL专栏】陈玉荣:如何高效的设计深度学习算法?[附PPT下载]

【AIDL专栏】山世光:从人脸识别看深度学习对计算机视觉的推动及挑战[附PPT下载]

重心与平衡知识在实际生活中的應用 举例三个
要求;要有分析过程(对内容进行分析)
回答请不要过短!例子越多越好!

我要回帖

更多关于 任何物体都是在什么和什么中进行的 的文章

 

随机推荐