物体分类与检测研究综述.docxVIP

下载本文档

6
0
约2.47万字
约 18页
2023-09-05 发布于广东
举报
版权申诉

物体分类与检测研究综述.docx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

物体分类与检测研究综述 1 计算机视觉研究中的质量检测物体分类和检测是计算机视觉、模式识别和机械学习领域非常活跃的研究方向。在许多领域，物体分类和检测被广泛应用，如安全领域的人脸识别、行人检测、智能视频分析、行人跟踪、，交通场景在交通环境中的位置识别、车辆计数、偏离检测、车牌识别和识别、基于网络领域内容的自动图像搜索和排名。可以说，对象分类和检测在人们日常生活中得到了应用，计算机的自动分类和检测技术也在一定程度上减轻了人们的负担，改变了人们的生活方式。计算机视觉理论的奠基者, 英国神经生理学家Marr认为, 视觉要解决的问题可归结为“What is Where”, 即“什么东西在什么地方”.因此计算机视觉的研究中, 物体分类和检测是最基本的研究问题之一.如图1所示, 给定一张图片, 物体分类要回答的问题是这张图片中是否包含某类物体 (比如牛) ;物体检测要回答的问题则是物体出现在图中的什么地方, 即需要给出物体的外接矩形框, 如图1 (b) 所示.物体分类与检测的研究, 是整个计算机视觉研究的基石, 是解决跟踪、分割、场景理解等其他复杂视觉问题的基础.欲对实际复杂场景进行自动分析与理解, 首先就需要确定图像中存在什么物体 (分类问题) , 或者是确定图像中什么位置存在什么物体 (检测问题) .鉴于物体分类与检测在计算机视觉领域的重要地位, 研究鲁棒、准确的物体分类与检测算法, 无疑有着重要的理论意义和实际意义. 本文从物体分类与检测问题的基本定义出发, 首先从实例、类别、语义三个层次对物体分类与检测研究中存在的困难与挑战进行了阐述.接下来, 本文以物体检测和分类方面的主流数据库和国际视觉算法竞赛PASCAL VOC竞赛为主线对近年来物体分类与检测算法的发展脉络进行了梳理与总结, 总结了物体分类与检测算法的主流方法:基于表达学习和结构学习.在此基础上, 本文对物体分类与检测算法的发展方向进行了思考和讨论, 指出了物体检测和物体分类算法的有机统一, 探讨了下一步研究的方向. 2 困难与挑战问题物体分类与检测是视觉研究中的基本问题, 也是一个非常具有挑战性的问题.物体分类与检测的难点与挑战在本文中分为3个层次:实例层次、类别层次和语义层次, 如图2所示. (1) 实例层次.针对单个物体实例而言, 通常由于图像采集过程中光照条件、拍摄视角、距离的不同、物体自身的非刚体形变以及其他物体的部分遮挡, 使得物体实例的表观特征产生很大的变化, 给视觉识别算法带来了极大的困难. (2) 类别层次.困难与挑战通常来自3个方面, 首先是类内差大, 也即属于同一类的物体表观特征差别比较大, 其原因有前面提到的各种实例层次的变化, 但这里更强调的是类内不同实例的差别, 例如图3 (a) 所示, 同样是椅子, 外观却是千差万别, 而从语义上来讲, 具有“坐”的功能的器具都可以称为椅子;其次是类间模糊性, 即不同类的物体实例具有一定的相似性, 如图3 (b) 所示, 左边的是一只狼, 右边的是一只哈士奇, 但我们从外观上却很难分开二者;再次是背景的干扰, 在实际场景下, 物体不可能出现在一个非常干净的背景下, 往往相反, 背景可能是非常复杂的、对我们感兴趣的物体存在干扰的, 这使得识别问题的难度大大增加. (3) 语义层次.困难和挑战与图像的视觉语义相关, 这个层次的困难往往非常难处理, 特别是对现在的计算机视觉理论水平而言, 一个典型的问题称为多重稳定性.如图3所示, 图3 (c) 左边既可以看成是两个面对面的人, 也可以看成是一个燃烧的蜡烛;右边则同时可以解释为兔子或者小鸭.同样的图像, 不同的解释, 这既与人的观察视角、关注点等物理条件有关, 也与人的性格、经历等有关, 而这恰恰是视觉识别系统难以处理的部分. 3 图像类别、图像数量与特点数据是视觉识别研究中最重要的因素之一, 通常我们更多关注于模型、算法本身, 事实上, 数据在视觉任务中的作用越来越明显.大数据时代的到来, 也使得研究人员开始更加重视数据.在数据足够多的情况下, 我们甚至可以使用最简单的模型、算法, 比如最近邻分类、朴素贝叶斯分类器都能得到很好的效果.鉴于数据对算法的重要性, 我们将在本节对视觉研究中物体分类与检测方面的主流数据进行概述, 从中也可以一窥目标分类、检测的发展.在介绍不同数据库时, 将主要从数据库图像数目、类别数目、每类样本数目、图像大小、分类检测任务难度等方面进行阐述, 如表1所示. 早期物体分类研究集中于一些较为简单的特定任务, 如OCR、形状分类等.OCR中数字手写识别是一个得到广泛研究的课题, 相关数据库中最著名的是MNIST数据库.MNIST是一个数字手写识别领域的标准评测数据集, 数据库大小是60 000, 一共包含10类阿拉伯数字, 每类提供50