重磅干货,第一时间送达 当我们在做一个图像分类任务时,首先我们会想从图像中捕获感兴趣的区域,然后再将其输入到模型中。让我们尝试一种称为基于聚类的图像分割技术,它会帮助我们在一定程度上提高模型性能,让我们看看它是什么以及一些进行聚类分割的示例代码。 想象一下我们要过马路,过马路之前我们会做什么? 首先,我们会看道路两旁,以确定接近的车辆等环境对象,然后我们会对接近的车辆的速度做出一些快速的估计,并决定何时以及如何过马路。所有这些都发生在很短的时间内,非常很的神奇。
通过确定不同物体的形状,我们的大脑能够在同一张快照中检测到多个物体,这是多么神奇啊。 让我们进一步了解,假设我们有我们的图像分类模型,它能够以 95% 上的准确率对苹果和橙子进行分类。当我们输入一幅同时包含苹果和橙子的图像时,预测精度会下降。随着图像中对象数量的增加,分类模型的性能会下降,这就是目标定位发挥作用的地方。 在我们检测图像中的对象并对其进行分类之前,模型需要了解图像中的内容,这就是图像分割的帮助所在。它为图像中的对象创建一个像素级的蒙版,这有助于模型更精细地理解对象的形状及其在图像中的位置。 目标检测 VS 图像分割 图像分割大致分为两大类。
检测到的对象 — 语义段 — 实例段 在第一张图片中,我们可以看到检测到的对象都是男性。在语义分割中,我们认为所有这些像素都属于一类,因此我们用一种颜色表示它们。另一方面,在实例分割中,这些像素属于同一类,但我们用不同的颜色表示同一类的不同实例。 根据我们使用的分割方法,分割可以分为许多类别。
接下来让我们看一个基于聚类的分割示例。 聚类算法用于将彼此更相似的数据点从其他组数据点更紧密地分组。 现在我们想象一幅包含苹果和橙子的图像。苹果中的大部分像素点应该是红色/绿色,这与橙色的像素值不同。如果我们能把这些点聚在一起,我们就能正确地区分每个物体,这就是基于聚类的分割的工作原理。现在让我们看一些代码示例。 from skimage.io import imread from skimage.color import rgb2gray import numpy as np import matplotlib.pyplot as plt %matplotlib inline from scipy import ndimage # Scaling the image pixels values within 0-1 img = imread('./apple-orange.jpg') / 255 plt.imshow(img) plt.title('Original') plt.show() 由于肉眼可见,图像中有五个色段
让我们看看我们是否可以使用来自 scikit-learn 的 K 均值算法对它们进行聚类 # For clustering the image using k-means, we first need to convert it into a 2-dimensional array image_2D = img.reshape(img.shape[0]*img.shape[1], img.shape[2]) # Use KMeans clustering algorithm from sklearn.cluster to cluster pixels in image from sklearn.cluster import KMeans # tweak the cluster size and see what happens to the Output kmeans = KMeans(n_clusters=5, random_state=0).fit(image_2D) clustered = kmeans.cluster_centers_[kmeans.labels_] # Reshape back the image from 2D to 3D image clustered_3D = clustered.reshape(img.shape[0], img.shape[1], img.shape[2]) plt.imshow(clustered_3D) plt.title('Clustered Image') plt.show()
效果非常好,我们能够将五个部分组合在一起,这就是聚类分割的工作原理。目前有许多先进的技术,例如 Mask R-CNN,可以进行更细粒度的分割。 Github代码连接: https://github.com/Mathanraj-Sharma/sample-for-medium-article/blob/master/cluster-based-segmentation-skimage/cluster-based-segmentation.ipynb |
|