基于opencv的数字识别系统

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

一、目的

想要实现的功能帮助我们在泵中扫描燃油并在应用程序中输入燃油信息。

所需技术①python程序对于拍摄的汽油泵的图像尝试从中读取数字。——opencv实现。②先使用python对其进行原型设计然后将代码转换成C++以在ios应用程序上运行。

但是我不会部署在移动端对第二个不做研究。

目标需要考虑两个问题

可以从图像中分离出数字吗——用opencv图像阈值法来查找数字进行裁剪轮廓
可以确定图像代表哪个数字吗——KNN进行分类训练。

二、图像中分离出数字

思路利用简单的图像阈值法来查找数字。

图像阈值法将图像转换为灰度然后说灰度值小于某个常数的任何像素则该像素为一个值否则为另一个。最后得到的二进制图像只有两种颜色在大多数情况下只是黑白图像。一幅图通常包含目标物体还有各种背景和噪声想要得到目标物体就要设置一个阈值用阈值将图像的像素分割成两部分。

但是阈值的值如何确定呢——五、自动化可以解决阈值的选择

这个概念在OCR应用中非常有效但是主要问题是决定对该阈值使用什么。我们可以选择一些常量也可以使用OpenCV选择其他一些选项。我们可以使用自适应阈值而不是使用常数这将使用图像的较小部分并确定要使用的不同阈值。这在具有不同照明情况的应用中特别有用特别是在扫描气泵中。

设置好阈值后使用opencv中的findcontours方法查找图像中连接了白色像素部分的区域。绘制轮廓后便可以裁剪出这些区域并确定它们是否可能是数字以及是什么数字。

2.1 图像处理流程

这是我在测试图像处理中使用的原始图像。它有一些眩光点但是图像相当干净。让我们逐步完成获取此源图像的过程并尝试将其分解为单个数字。

在代码中主要对应于playground.py函数这个相当于完整的代码会输出最后的预测结果其中图像分割部分主要调用的是frameProcessor.py文件中的函数。

原始图片

2.1.1 图像准备

在开始图像处理流程之前我们决定先调整一些图像属性然后再继续。这有点试验和错误但注意到当我们调整图像的曝光度时可以获得更好的结果。下面是使用Python调整后的图像相当于曝光阿尔法的图像cv::Mat::convertTo这是刚刚在图像点乘法操作cv2.multiply(some_img, np.array([some_alpha])

调整曝光

2.1.2 灰阶

将图像转换为灰度。

转换为灰度

2.1.3 模糊

模糊图像以减少噪点。我们尝试了许多不同的模糊选项但仅用轻微的模糊就找到了最佳结果。

稍微模糊

2.1.4 阈值化

图像转换为黑白图像

在下图中使用cv2.adaptiveThreshold带有cv2.ADAPTIVE_THRES_GAUSSIAN_C选项的方法。此方法采用两个参数块大小和要调整的常数。确定这两者需要一些试验和错误更多有关优化部分的内容。

阈值为黑/白

2.1.5 填补空白

由于大多数燃油泵都使用某种7段LCD显示屏因此数字中存在一些细微的间隙无法使用轮廓绘制方法因此我们需要使这些段看起来相连。在这种情况下我们将转到erode(黑多白少)图像来弥补这些差距。由于大家可能希望使用所以这似乎向后看dilate但是这些方法通常适用于图像的白色部分。在我们的案例中我们正在“侵蚀erode”白色背景以使数字看起来更大。

侵蚀出来的数字

2.1.6 反转图像

在尝试在图像中查找轮廓之前我们需要反转颜色因为该findContours方法将找到白色的连接部分而当前的数字是黑色。

颜色反转

2.1.7 在图像上找到轮廓

下图显示了我们的原始图像该图像在上图的每个轮廓上都有包围框。大家可以看到它找到了数字但也找到了一堆不是数字的东西因此我们需要将它们过滤掉。

红色框显示所有找到的轮廓

轮廓过滤

现在我们有了许多轮廓我们需要找出我们关心的轮廓。浏览了一堆气泵的显示和场景后使用一套适用于轮廓的快速规则。
收集所有我们将分类为潜在小数的正方形轮廓。
扔掉任何不是正方形或高矩形的东西。
使轮廓与某些长宽比匹配。LCD显示屏中的十个数字中有九个数字的长宽比类似于下面的蓝色框高光之一。该规则的例外是数字“ 1”其长宽比略有不同。通过使用一些样本轮廓我将0–91方面确定为0.6将1方面确定为0.3。它将使用这些比率和+/-缓冲区来确定轮廓是否是我们想要的东西并收集这些轮廓。
对潜在数字应用一组附加规则在这里我们将确定轮廓边界是否偏离所有其他潜在数字的平均高度或垂直位置。由于数字的大小应相同并且在相同的Y上对齐因此我们可以丢弃它认为是数字的任何轮廓但不能像其他轮廓那样将其对齐和调整大小。

蓝色矩形显示我们的数字/十进制红色被忽略

2.1.8 查找小数点

在图像中查找小数点是要解决的另一个问题。由于它很小有时会连接到它旁边的手指因此使用我们在手指上使用的方法来确定它似乎有问题。当我们过滤轮廓时我们收集了可能是十进制的正方形轮廓。从上一步获得经过验证的数字轮廓之后我们将找到数字的最左x位置和最右x位置以确定我们期望的小数位数。然后我们将遍历那些潜在的小数确定它是否在该空间以及该空间的下半部分并将其分类为小数。找到小数点后我们可以将其插入到我们上面预测的数字字符串中。

只在黄色部分中查找小数

2.1.9 将识别的数字裁剪

cropped = eroded[y:y + h, x: x + w]

直接选用img[h, w, c]进行切割。

三、对切割的数字进行预测

3.1 数字训练

在机器学习的世界中解决OCR问题是一个分类问题。我们建立了一组训练有素的数据例如图像处理中的数字将它们分类为某种东西然后使用该数据来匹配任何新图像。一旦基本的图像隔离功能开始工作我就创建了一个脚本generate_distorted_images.py该脚本可以遍历图像文件夹运行数字隔离代码然后将裁剪的数字保存到新文件夹中供我查看。运行完之后我会有一个未经训练的数字文件夹然后可以用来训练系统。其实感觉是对裁剪好的数字图像进行腐蚀或者膨胀操作然后增加数字图像的类似于数据增强的操作一样

由于OpenCV已经包含了k近邻k-NN实现因此无需引入任何其他库。为了进行训练我们浏览了数字图像的文件夹然后将其放入标有0–9的新文件夹中因此每个文件夹中都有一个数字的不同版本的集合。我们没有大量的这些图像但是有足够的证据来证明这是可行的。由于这些数字是相当标准的我认为我不需要大量训练有素的图像就可以相当准确。

k-NN工作原理的基础是我们将以黑白方式加载每个图像将该图像存储在每个像素处于打开或关闭状态的数组中然后将这些打开/关闭像素与特定的数字相关联。然后当我们要预测一个新图像时它将找出哪个训练图像与这些像素最匹配然后向我们返回最接近的值。frameProcessor.py

# 调用cv2.ml.KNearest_create()创建一个KNN分类器
# 然后调用train方法进行训练
# 调用findNearest方法进行测试
# findNearest的返回值result表示根据knn算法得到的测试图像对应的标签neighbours表示测试图像的k个最近邻dist表示相应最近邻的距离

整理好数字后将创建一个新的脚本该脚本将遍历这些文件夹获取每个图像并将该图像与数字关联。到目前为止在大多数代码中一般的图像处理概念在Python和C ++中都应用相同但是在这里会有细微的差别。train_model.py文件写分类结果

在大多数此类应用程序的Python示例中分类被写入两个文件一个包含分类另一个包含该分类的图像内容。通常使用NumPy和标准文本文件完成此操作。但是由于我想在iOS应用程序上重用该系统因此我需要想出一种可以拥有跨平台分类文件的方式。当时我什么都找不到因此最终编写了一个快速实用程序该实用程序将从Python中获取分类数据并将其序列化为JSON文件我可以在OpenCV的FileStorage系统的C ++端使用它。这不漂亮但是我写了一个简单的MatPython中的序列化方法它将为OpenCV创建合适的结构以在iOS端读取。现在当我训练数字时我将获得NumPy文件供我的Python测试使用然后获取一个JSON文档我可以将其拖到我的iOS应用程序中。您可以在此处看到该代码。