AI HUB에서 “대용량 손글씨 OCR 데이터”이라는 데이터 셋을 사용하기로 했다.
영수증의 문자는 프린트된 정형화된 폰트이지만 사진을 찍게 되었을 때 각도나 구겨짐 등에 의해 다르게 보여질 수 있어 손글씨를 기준으로 학습하기로 했다.
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=91
한국어 글자체 이미지
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=81
CNN을 활용한 MNIST 손글씨 분류
이 모델을 기준으로 확장해서 서비스에 적용할 수 있도록 데이터셋을 호환시킬 예정이다.