1.2.1 计算机视觉三大主要任务_基于深度学习的目标检测原理与应用-QQ阅读历史男生网

书名：基于深度学习的目标检测原理与应用
作者名：翟中华等编著
本章字数：593字
更新时间：2023-11-20 19:56:20

1.2.1 计算机视觉三大主要任务

计算机视觉的三大主要任务是分类、检测和分割。图像分类（Image Classification）将图像结构化为某一类别的信息，用事先确立好的类别和实例来描述图像，是最基础的图像理解手段。图1-2-1（a）所示为图像分类，包括瓶子（bottle）、茶杯（cup）、立方体（cube）。图1-2-1（b）所示为目标检测（Object Detection），包括定位和识别两部分，定位需找到物体的位置，找到瓶子、茶杯、立方体的位置并给出识别标签。分割是对图像的像素级描述，赋予每个像素一个类别意义，适用于理解要求较高的场景，如无人驾驶中对道路和非道路的分割。分割包括语义分割（Semantic Segmentation）和实例分割（Instance Segmentation），语义分割是对背景分离的拓展，要求分离具有不同语义的图像部分，如图1-2-1（c）所示，例如，为区分图像中属于杯子的所有像素，把这些像素涂成浅灰色；实例分割是检测任务的拓展，要求描述目标的轮廓，针对个体而非类别，如图1-2-1（d）所示，瓶子是蓝色的，杯子是绿色的，不同的个体颜色表示也不同。

资料来源：Andrew Ng Coursera目标检测课程。

注：彩插页有对应彩色图片。

图1-2-1 分类、检测与分割

对单物体而言，分类就是通过算法对整幅图像给出一个最大置信度的类别标签；定位即加上具体的红框，标示位置并且给出标签，如图1-2-2所示。对多物体而言，分别标示物体位置且写下猫、狗和鸭标签，如果前期能够准确检测，则分割会变容易，因此，目标检测是计算机视觉领域首要解决的问题。

资料来源：Andrew Ng Coursera目标检测课程。

图1-2-2 目标检测猫狗分类示意