OCR tessereact (1)

ocr 기능을 지원하는 라이브러리를 사용하기 위해 사진을 불러오고 사진속 텍스트를 불러오는 코드를 구현했다.

텍스트로 변환하는 과정에서 원하는 데이터만 뽑아내기 위해서 반환된 텍스트에서 상품명을 기준으로 뒤에 보여지는 텍스트만 추출하여 필터링하였다. 텍스트 추출하는데 있어 영수증마다의 형식이 다르고 불규칙해서 처리하기 힘든 내용들이 저장이 되었다. 그래서 영수증 사진을 전처리하기 위해 영수증 내부의 글자가 있는 부분을 골라 블럭으로 묶고 정형적이지 않은 모양은 노이즈로 판단하고 삭제하여 큰 블럭들로 묶은뒤 그 안의 내용을 텍스트로 변환하였다.

하지만 이미지에서 텍스트로 전환된 내용이 정확도가 떨어지는 이슈가 있어서 다른 모델을 알아보게 되었다. 파이썬에서 지원하는 pyocr기능과 구글의 tesseract는 영어에 대한 정확도는 높았지만 한글에 대한 정확도는 프로그램에서 사용하기에는 정확도가 떨어진다는 문제가 있었다.

Untitled