- 基于深度学习的目标检测原理与应用
- 翟中华等编著
- 593字
- 2023-11-20 19:56:20
1.2.1 计算机视觉三大主要任务
计算机视觉的三大主要任务是分类、检测和分割。图像分类(Image Classification)将图像结构化为某一类别的信息,用事先确立好的类别和实例来描述图像,是最基础的图像理解手段。图1-2-1(a)所示为图像分类,包括瓶子(bottle)、茶杯(cup)、立方体(cube)。图1-2-1(b)所示为目标检测(Object Detection),包括定位和识别两部分,定位需找到物体的位置,找到瓶子、茶杯、立方体的位置并给出识别标签。分割是对图像的像素级描述,赋予每个像素一个类别意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。分割包括语义分割(Semantic Segmentation)和实例分割(Instance Segmentation),语义分割是对背景分离的拓展,要求分离具有不同语义的图像部分,如图1-2-1(c)所示,例如,为区分图像中属于杯子的所有像素,把这些像素涂成浅灰色;实例分割是检测任务的拓展,要求描述目标的轮廓,针对个体而非类别,如图1-2-1(d)所示,瓶子是蓝色的,杯子是绿色的,不同的个体颜色表示也不同。
![](https://epubservercos.yuewen.com/9EAA53/27949874302806606/epubprivate/OEBPS/Images/46031_22_1.jpg?sign=1739319254-2ZDqoVmUs11cykSmRHkxptLP0vgRI9L3-0-c4f1f772b988a4c7ec100a37910befe9)
资料来源:Andrew Ng Coursera目标检测课程。
注:彩插页有对应彩色图片。
图1-2-1 分类、检测与分割
对单物体而言,分类就是通过算法对整幅图像给出一个最大置信度的类别标签;定位即加上具体的红框,标示位置并且给出标签,如图1-2-2所示。对多物体而言,分别标示物体位置且写下猫、狗和鸭标签,如果前期能够准确检测,则分割会变容易,因此,目标检测是计算机视觉领域首要解决的问题。
![](https://epubservercos.yuewen.com/9EAA53/27949874302806606/epubprivate/OEBPS/Images/46031_22_2.jpg?sign=1739319254-XvXqn8MsZychPLh8v1iG02T81t7UfdY8-0-f488843b70dd35b734397d066e0be5d9)
资料来源:Andrew Ng Coursera目标检测课程。
图1-2-2 目标检测猫狗分类示意