前記事で示したOpenCVを用いた矩形検出の改善案のうち、ここでは下記2案の内容について記載する。レシートを白・背景を黒に2値化できるような変換を目指す。
環境
Python 3.7.8
OpenCV-Python 4.5.1.48
改善案1 減色する
案の概要
前記事で示した現在の検出手順では、2値化に大津の2値化を利用している。大津の2値化は画素値の分散を用いて閾値が決められるため、画素値をヒストグラムで表した時に双峰性を持つような分布になる画像だとうまく閾値を決めることができる(と理解している)。
今回の画像のヒストグラムを見てみると、山がいくつもある。また、大津の2値化による閾値は107だったが、背景で白飛びしている箇所(画像右下)が閾値より右(白色側)に入っているためうまくレシートと背景を2値化で分離できていない状態になっている。
単純に考えると、2値化する際に背景の机が黒と判定されれば(ヒストグラムで背景が白色側の山に入らず、黒色側の山に入るように調整できれば)うまくいくはず。
単純化すれば扱う画像は以下の3色で構成されている。
・レシート:白
・背景:任意の単一色(グレースケールだと灰)
・レシートの印字:黒
この3色に減色できている画像をグレースケールに変換すれば、ヒストグラムの山が3つになる。その状態で2値化し、レシート(白)と背景(灰)の間で閾値が引かれればうまくいくという案となる(仮に期待通りに減色できたとしても、背景(灰)と印字(黒)の間で閾値が引かれてしまうという問題は残っているが、背景が1色になれば少なくとも背景が白黒両方に分布することはなくなるはず)。
案の実践
減色はk-meansを用いて行うことができる。(考えてみれば当然だけど、色は3つの数字の組で表されているので、3次元空間でクラスタリングするのと同じことだった)
概要に記載した3色に減色を試してみると以下のようになった。
そう思い通りにはいかず、背景が複数色に分かれ、かつ背景の一部はレシートと同色になる結果だった。
減色後のヒストグラムを確認すると、背景は1色にならず3色いずれにも分布している状態だった。
レシートと背景が同化しないよう、色数(クラスタリング数)を少し増やして5色にすると以下の結果だった。
5色に増やすと、3色の時にはレシートと同色に分類された画像右下部分に関してもレシートと別の色に分けられている。しかし、閾値が期待した位置で引けていないため、結局2値化した際にレシートと背景の一部が同化している。
そこで、2値化の閾値を人間が与える形に変えてみる。何色に減色したかによるが、x色に減色したうちレシートは白側上位1色か2色に属することが多いだろうから、2値化の閾値を白側から2色と3色の間の位置とするルールにしてみた。
※ 以下は7色に減色し、閾値は白側から2色と3色の間に引いた場合
これだと、一応レシートが全て無事検出できた。
案の評価
「レシートは減色したx色のうち白側上位1色か2色になる」という仮定の元、閾値を任意で定めている。そのため、レシートが白側上位3色になっている場合、あるいは白側上位1、2位に背景も含まれてしまっている場合、この案は役に立たなくなる。特に背景が白色系だと背景とレシートをうまく分離できないだろう。
コード
案1の一連の処理を行う際に書いたコードを以下に示す。
※ 案1に特有の部分
減色は cv2.kmeans を利用している。
pixels = img.reshape(-1, 3).astype(np.float32) # 画像の変換(np.float32型で渡す必要がある)
criteria = cv2.TERM_CRITERIA_MAX_ITER + cv2.TERM_CRITERIA_EPS, 10, 1.0 # 繰り返しの終了条件 これだと精度が1に達するor繰り返し10回いずれかに達したら終了する
attempts = 10 # k-meansの初期値の試行回数
flags = cv2.KMEANS_RANDOM_CENTERS # k-meansの重心の初期値の決め方
_, labels, centers = cv2.kmeans(pixels, K, None, criteria, attempts, flags)
一連の処理を行い、検出結果を画像で返すところまでのコード
import cv2
import numpy as np
from matplotlib import pyplot as plt
def sub_color(img, K):
"""色数を指定して減色する
"""
pixels = img.reshape(-1, 3).astype(np.float32)
criteria = cv2.TERM_CRITERIA_MAX_ITER + cv2.TERM_CRITERIA_EPS, 10, 1.0
attempts = 10
flags = cv2.KMEANS_RANDOM_CENTERS
_, labels, centers = cv2.kmeans(pixels, K, None, criteria, attempts, flags)
sub_color_img = centers[labels].reshape(img.shape).astype(np.uint8)
plot_img(sub_color_img, 'sub_color_img')
return sub_color_img
def plot_histgram(img):
"""画像の画素値の分布をヒストグラムにする
"""
hist = cv2.calcHist([img], [0], None, [256], [0,256])
plt.bar([i for i in range(0,256)], hist.ravel())
plt.show()
def binarize(img):
"""画像を2値化する
"""
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
plot_img(gray_img, 'gray_img')
threshold = np.unique(np.array(gray_img).ravel())[-2] -1 # 白側から2色と3色の間の位置を閾値とする
_, binary_img = cv2.threshold(gray_img, threshold, 255, cv2.THRESH_BINARY)
plot_img(binary_img, 'binary_img')
return gray_img, binary_img
def find_contours(img):
"""輪郭の一覧を得る
"""
contours, _ = cv2.findContours(img, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
return contours
def approximate_contours(img, contours):
"""輪郭を条件で絞り込んで矩形のみにする
"""
height, width, _ = img.shape
img_size = height * width
approx_contours = []
for i, cnt in enumerate(contours):
arclen = cv2.arcLength(cnt, True)
area = cv2.contourArea(cnt)
if arclen != 0 and img_size*0.02 < area < img_size*0.9:
approx_contour = cv2.approxPolyDP(cnt, epsilon=0.01*arclen, closed=True)
if len(approx_contour) == 4:
approx_contours.append(approx_contour)
return approx_contours
def draw_contours(img, contours, file_name):
"""輪郭を画像に書き込む
"""
draw_contours_file = cv2.drawContours(img.copy(), contours, -1, (0, 0, 255, 255), 10)
plot_img(draw_contours_file, file_name)
def plot_img(img, file_name):
"""画像の書き出し
"""
plt.imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
plt.title(file_name)
plt.show()
cv2.imwrite('./{}.png'.format(file_name), img)
def get_receipt_contours(img, K):
"""矩形検出までの一連の処理を引数の色数で行う
"""
sub_color_img = sub_color(img, K)
gray_img, binary_img = binarize(sub_color_img)
contours = find_contours(binary_img)
approx_contours = approximate_contours(img, contours)
draw_contours(img, contours, 'draw_all_contours')
draw_contours(img, approx_contours, 'draw_rectangle_contours')
plot_histgram(gray_img)
# 7色に減色して矩形検出を試す
input_file = cv2.imread('/path/to/example.jpg')
get_receipt_contours(input_file, 7)
改善案2 HSV色空間にする
案の概要
ほとんどのレシートは白色なので、色を条件として背景と分離できないかと考えた(背景も白色系だと使えなくなるが)。
色を条件とした検出の場合、RGB色空間よりHSV色空間を使ったほうが検出しやすいらしい。
- RGBは、赤(R)・緑(G)・青(B)の各要素がどれだけ含まれているか(3つの色の混色の割合)で表される。同一の色でも明度や彩度の違いによってRGB3つのパラメータが変動し、範囲を指定しづらい。
- HSVは、色相(H)・彩度(S)・明度(V)のパラメータを使って表される。色相(色合い)を単独で指定できる(= 特定の色を指定しやすい)。
白色はHSV色空間だと色相は関係なくなる(0°~360°全て)ので、その長所が生かせないような気もするが、色相:制限なし / 彩度:小さめ / 明度:大きめという範囲を条件として処理してみる。
案の実践
以下の手順で処理を行う。
1. 画像をHSV色空間に変換する
2. レシートの白色とみなす範囲をHSVで指定して、それ以外はマスク(黒に変換)する
3. 2値化できた状態になるので、輪郭の検出を行う
2値化が期待した形でできているので、3枚とも検出できている。
案の評価
任意の画像だと、背景色やレシートの白色度合いによってはレシートの色(白色)とみなす指定範囲を調整する必要がある。今回の画像では偶然うまくいったが、レシートの色(白色)とみなす範囲からレシートの一部が外れた場合、その箇所は黒に分類されるため矩形検出がうまくいかなくなる。
コード
案2の一連の処理を行う際に書いたコードを以下に示す。
※ 案2に特有の部分
HSV色空間への変換後、白色部分のみにするマスク処理は cv2.inRange で行っている。
hsv_img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV) # HSV色空間への変換
lower_white = np.array([0,0,100]) # 白色とみなすHSVの各値の下限
upper_white = np.array([180,25,255]) # 白色とみなすHSVの各値の上限
binary_img = cv2.inRange(hsv_img, lower_white, upper_white) # 上限と下限を指定してマスク処理する
一連の処理を行い、検出結果を画像で返すところまでのコード
import cv2
import numpy as np
from matplotlib import pyplot as plt
def binarize(img):
"""画像を2値化する
"""
hsv_img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
lower_white = np.array([0,0,100]) # 白色とみなすHSVの各値の下限
upper_white = np.array([180,25,255]) # 白色とみなすHSVの各値の上限
binary_img = cv2.inRange(hsv_img, lower_white, upper_white)
plot_img(binary_img, 'binary_img')
return binary_img
def find_contours(img):
"""輪郭の一覧を得る
"""
contours, _ = cv2.findContours(img, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
return contours
def approximate_contours(img, contours):
"""輪郭を条件で絞り込んで矩形のみにする
"""
height, width, _ = img.shape
img_size = height * width
approx_contours = []
for i, cnt in enumerate(contours):
arclen = cv2.arcLength(cnt, True)
area = cv2.contourArea(cnt)
if arclen != 0 and img_size*0.02 < area < img_size*0.9:
approx_contour = cv2.approxPolyDP(cnt, epsilon=0.01*arclen, closed=True)
if len(approx_contour) == 4:
approx_contours.append(approx_contour)
return approx_contours
def draw_contours(img, contours, file_name):
"""輪郭を画像に書き込む
"""
draw_contours_file = cv2.drawContours(img.copy(), contours, -1, (0, 0, 255, 255), 10)
plot_img(draw_contours_file, file_name)
def plot_img(img, file_name):
"""画像の書き出し
"""
plt.imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
plt.title(file_name)
plt.show()
cv2.imwrite('./{}.png'.format(file_name), img)
def get_receipt_contours(img):
"""矩形検出までの一連の処理を行う
"""
binary_img = binarize(img)
contours = find_contours(binary_img)
approx_contours = approximate_contours(img, contours)
draw_contours(img, contours, 'draw_all_contours')
draw_contours(img, approx_contours, 'draw_rectangle_contours')
input_file = cv2.imread('/path/to/example.jpg')
get_receipt_contours(input_file)