การแยกและบันทึกตัวอักษรจากภาพด้วย Python และ OpenCV

โดยปกติแล้วเมื่อเราต้องการที่จะข้อความจากภาพมานั้น เพื่อน ๆ คงนึกถึง Google Translate ที่จะสามารถอัพโหลดรูปภาพลงไปได้หรือหยิบกล้องมือถือ ขึ้นมาถ่ายจากนั้นก็จะได้คำแปลออกมาหรืออยากได้ข้อความนั้น ๆ แต่ว่าวันนี้เราจะพามาดูกันว่า เบื้องหลังเหล่ามีการทำงานแบบใด แต่ในบทความนี้ยังถือว่าเป็นจุดเล็ก ๆ และยังห่างไกลกับการทำงานของ Google Translate ทำ

OK งั้นเรามาเริ่มกันเลยดีกว่า ในบทความนี้เราจะพูดถึงเทคนิคในการประมวลผลภาพ (Image Processing) และ OpenCV ซึ่งน่าจะคุ้นหูกันมาบ้างแล้ว เพื่อใช้ในการแยกตัวอักษรที่อยู่ในภาพออกมาเป็นภาพย่อยที่ละตัว จากนั้นก็จะทำการบันทึกภาพเป็นไฟล์รูปภาพแยกที่ละตัวอักษรซึ่งเป็นพื้นฐานสำคัญของการทำงานด้าน OCR (Optical Character Recognition)

งั้นขอเพิ่มส่วนอธิบาย OCR หรือ การรู้จำอักขระด้วยแสง (Optical Character Recognition) : การรู้จำอักขระด้วยแสง หรือมักเรียกอย่างย่อว่า OCR คือกระบวนการทางกลไกหรือทางอิเล็กทรอนิกส์เพื่อแปลภาพของข้อความจากการเขียนหรือจากการพิมพ์ ไปเป็นข้อความที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์ การจับภาพอาจทำโดยเครื่องสแกนเนอร์ กล้องดิจิทัล โอซีอาร์เป็นสาขาวิจัยในการรู้จำแบบ, ปัญญาประดิษฐ์, และคอมพิวเตอร์วิทัศน์

อันดับแรกเลยนั้นก็คือการติดตั้ง library

pip install imutils

เป็น library Python เสริมสำหรับ OpenCV ที่มีฟังก์ชันอำนวยความสะดวก เช่น
การเรียงลำดับ contours, การย่อ/ขยายภาพ (resize), การหมุนภาพอัตโนมัติ, การแปลงองศา/พิกัด ซึ่งจะเป็น library หลักของเราในการทำงานในครั้งนี้

ขั้นตอนที่ 1 โหลดภาพ และแปลงเป็น Grayscale

import cv2
from imutils import contours

image = cv2.imread('1.png')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

Image description
เราจะเริ่มจากการโหลดภาพที่มีตัวอักษรเข้ามาเข้ามาและแปลงจากภาพสีให้กลายเป็นภาพขาวดำ เพื่อให้สามารถนำไปประมวลผลต่อได้ง่ายขึ้น

ขั้นตอนที่ 2 ใช้ Otsu’s Threshold เพื่อแยกพื้นหลังกับตัวอักษร

thresh = cv2.threshold(
    gray, 0, 255,
    cv2.THRESH_OTSU + cv2.THRESH_BINARY_INV
)[1]

Image description
ต่อมานั้นเราจะใช้ Otsu’s Threshold ที่ขะช่วยกำหนดค่ากลางอัตโนมัติเพื่อแยกพื้นหลังกับตัวอักษร โดยเราสั่งให้ทำ Invert (THRESH_BINARY_INV) เพื่อให้ตัวอักษรเป็นสีขาวและพื้นหลังเป็นสีดำ

ขั้นตอนที่ 3 หาขอบเขตของตัวอักษรและเรียงจากซ้ายไปขวา

cnts = cv2.findContours(
    thresh, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE
)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
cnts, _ = contours.sort_contours(cnts, method="left-to-right")

เราจะใช้ cv2.findContours() เพื่อหาขอบเขตของตัวอักษรแต่ละตัว จากนั้นก็ขะใช้ sort_contours() จาก library imutils เพื่อเรียงจากซ้ายไปขวา ซึ่งเหมาะกับภาษาอังกฤษที่อ่านจากซ้ายไปขวา

ขั้นตอนที่ 4 ตัดตัวอักษรทีละตัวด้วย ROI และบันทึกภาพ

ROI_number = 0
for c in cnts:
    area = cv2.contourArea(c)
    if area > 10:
        x,y,w,h = cv2.boundingRect(c)
        ROI = image[y:y+h, x:x+w]
        cv2.imwrite('ROI_{}.png'.format(ROI_number), ROI)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)
        ROI_number += 1

Image description

Image description
วนลูปในแต่ละ Contour ตรวจสอบว่า area มากกว่า 10 เพื่อกรอง noise ออก
ตัดสี่เหลี่ยมล้อมรอบตัวอักษร Bounding Box
บันทึกภาพแต่ละตัวเป็นไฟล์ ROI_0.png, ROI_1.png, ...
และในขณะเดียวกันก็ วาดกรอบสีเขียว แสดงผลลัพธ์ด้วย cv2.rectangle() เพื่อดูว่าโปรแกรมตรวจจับได้ถูกต้องหรือไม่

ขั้นตอนที่ 5 แสดงผลลัพธ์

cv2.imshow('thresh', thresh)
cv2.imshow('image', image)
cv2.waitKey()

แสดงภาพ Threshold และแสดงภาพจริงที่มีกรอบครอบตัวอักษร
จากนั้นรอให้ผู้ใช้กดปุ่มเพื่อปิดหน้าต่าง

ตัวอย่างเพิ่มเติม

เราจะลองใช้ภาพอื่น ในการในการทดสอบว่า บทความการแยกและบันทึกตัวอักษรจากภาพด้วย Python และ OpenCV นี้ สามารถนำมาใช้งานจริงได้หรือไม่

ขั้นตอนที่ 1 โหลดภาพ และแปลงเป็น Grayscale

import cv2
from imutils import contours

image = cv2.imread('1.png')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

ขั้นตอนที่ 2 ใช้ Otsu’s Threshold เพื่อแยกพื้นหลังกับตัวอักษร

thresh = cv2.threshold(
    gray, 0, 255,
    cv2.THRESH_OTSU + cv2.THRESH_BINARY_INV
)[1]

ขั้นตอนที่ 3 หาขอบเขตของตัวอักษรและเรียงจากซ้ายไปขวา

cnts = cv2.findContours(
    thresh, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE
)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
cnts, _ = contours.sort_contours(cnts, method="left-to-right")

ขั้นตอนที่ 4 ตัดตัวอักษรทีละตัวด้วย ROI และบันทึกภาพ

ROI_number = 0
for c in cnts:
    area = cv2.contourArea(c)
    if area > 10:
        x,y,w,h = cv2.boundingRect(c)
        ROI = image[y:y+h, x:x+w]
        cv2.imwrite('ROI_{}.png'.format(ROI_number), ROI)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)
        ROI_number += 1

Image description

ขั้นตอนที่ 5 แสดงผลลัพธ์

cv2.imshow('thresh', thresh)
cv2.imshow('image', image)
cv2.waitKey()

Image description
แสดงภาพ Threshold และแสดงภาพจริงที่มีกรอบครอบตัวอักษร
จากนั้นรอให้ผู้ใช้กดปุ่มเพื่อปิดหน้าต่าง

Code ทั้งหมด

import cv2
from imutils import contours

# Load image, grayscale, Otsu's threshold
image = cv2.imread('1.png')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_OTSU + cv2.THRESH_BINARY_INV)[1]

# Find contours, sort from left-to-right, then crop
cnts = cv2.findContours(thresh, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
cnts, _ = contours.sort_contours(cnts, method="left-to-right")

# Filter using contour area and extract ROI
ROI_number = 0
for c in cnts:
    area = cv2.contourArea(c)
    if area > 10:
        x,y,w,h = cv2.boundingRect(c)
        ROI = image[y:y+h, x:x+w]
        cv2.imwrite('ROI_{}.png'.format(ROI_number), ROI)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)
        ROI_number += 1

cv2.imshow('thresh', thresh)
cv2.imshow('image', image)
cv2.waitKey()

สรุปผล

สรุปแล้วในบทความนี้ เราได้แสดงให้เห็นแล้วว่าสามารถที่จะใช้การประมวลผลภาพ (Image Processing) และ OpenCV ในการแยกและบันทึกตัวอักษรจากภาพได้จากตัวอย่างเพิ่มเติมที่มีซึ่งในบทความนี้ เราจะได้เรียนรู้การใช้ OpenCV เพื่อแปลงภาพให้พร้อมใช้งาน
แยกตัวอักษรจากภาพโดยใช้ threshold และ contours ตัดและบันทึกภาพตัวอักษรออกมาเป็นไฟล์ย่อย โดยเทคนิคนี้สามารถใช้เป็น ขั้นตอนเริ่มต้นในการเตรียมข้อมูลสำหรับระบบ OCR ได้ หรือจะใช้แบบ standalone เพื่อแยกข้อความจากภาพก็ได้เช่นกัน หรือนำไปต่อยอดในงานต่อ ๆ ไป

References

https://stackoverflow.com/questions/60515216/extracting-and-saving-characters-from-an-image

การแยกและบันทึกตัวอักษรจากภาพด้วย Python และ OpenCV

ขั้นตอนที่ 1 โหลดภาพ และแปลงเป็น Grayscale

ขั้นตอนที่ 2 ใช้ Otsu’s Threshold เพื่อแยกพื้นหลังกับตัวอักษร

ขั้นตอนที่ 3 หาขอบเขตของตัวอักษรและเรียงจากซ้ายไปขวา

ขั้นตอนที่ 4 ตัดตัวอักษรทีละตัวด้วย ROI และบันทึกภาพ

ขั้นตอนที่ 5 แสดงผลลัพธ์

ตัวอย่างเพิ่มเติม

ขั้นตอนที่ 1 โหลดภาพ และแปลงเป็น Grayscale

ขั้นตอนที่ 2 ใช้ Otsu’s Threshold เพื่อแยกพื้นหลังกับตัวอักษร

ขั้นตอนที่ 3 หาขอบเขตของตัวอักษรและเรียงจากซ้ายไปขวา

ขั้นตอนที่ 4 ตัดตัวอักษรทีละตัวด้วย ROI และบันทึกภาพ

ขั้นตอนที่ 5 แสดงผลลัพธ์

Code ทั้งหมด

สรุปผล

References

Comments (0)

Read More

#reading

#popular

การแยกและบันทึกตัวอักษรจากภาพด้วย Python และ OpenCV

ขั้นตอนที่ 1 โหลดภาพ และแปลงเป็น Grayscale

ขั้นตอนที่ 2 ใช้ Otsu’s Threshold เพื่อแยกพื้นหลังกับตัวอักษร

ขั้นตอนที่ 3 หาขอบเขตของตัวอักษรและเรียงจากซ้ายไปขวา

ขั้นตอนที่ 4 ตัดตัวอักษรทีละตัวด้วย ROI และบันทึกภาพ

ขั้นตอนที่ 5 แสดงผลลัพธ์

ตัวอย่างเพิ่มเติม

ขั้นตอนที่ 1 โหลดภาพ และแปลงเป็น Grayscale

ขั้นตอนที่ 2 ใช้ Otsu’s Threshold เพื่อแยกพื้นหลังกับตัวอักษร

ขั้นตอนที่ 3 หาขอบเขตของตัวอักษรและเรียงจากซ้ายไปขวา

ขั้นตอนที่ 4 ตัดตัวอักษรทีละตัวด้วย ROI และบันทึกภาพ

ขั้นตอนที่ 5 แสดงผลลัพธ์

Code ทั้งหมด

สรุปผล

References

Comments (0)

Read More

System Hacking: Journey into the Intricate World of Cyber Intrusion

What is Deep Learning

C# for Beginners: Your First Steps into Programming with Microsoft’s Language

Selenium with Python for Beginners: Your First Automation Script

#reading

#popular