광학 문자 인식
의미 : 사람의 문자를 이미지로 획득하여 기계가 읽을 수 있는 문자로 변환하는것
사용 목적 : 수동작업의 시간을 줄여서 효율성을 도모한다.
이미지 입력
ocr수향 (딥러닝)
정보 정제 : bbox label
정보 출력
딥러닝 알고리즘
text detection :
이미지가 입력이 되면 존재하는 문자들의 위치가 출력됨
text recognition :
반환된 문자열의 위치를 통해 잘려진 이미지
문자로 인식해서 텍스트로 전환
detecter
bbox : 좌측상단 자표기준 박스
landmark : 구현이 복잡하지만 정확한 추출
multi-point : 매우 정확한 영역 추출, 로고나 휘어진 글씨
box Regression based(General Detector)
일반적인 검출기
텍스트만이 가진 특징을 반영하기가 힘듬
segmentation based
ocr 디텍터
가로로 길쭉하고 희어진 특성을 가질 수 있는 특성을 대비한다.
픽셀하나하나 마다의 뮈치가 텍스트에 해당하는 것인지가 중요(의미가 달라질 수 있음)
하이브리드
두가지 적절히
end-to-end
텍스트 디텍터와 텍스트 리코그니션을 하나의 모델로 해결
상호보완하며 성능 향상 가능
Recogition
이미지 내 문자열 인식
디텍터에 의해 잘려진 이미지들을 인식해서 문자열로 바꿈
모델 2가지
Rnn 계열 순환 신경계
이전에 나온 내용을 참고해서 다음에 나올 내용을 추론. 하지만 스탭이 진행될수록 잃어버리는 문제 발생
transfomer-최근 연구방식
언어 번역분야
인코더와 디코더 분야(번역)
i am을 통해 저는을 추론
개발자
입니다를 추론
ocr에 있어서는 입력이 문자가 아니라 이미지
인코더로 이미지를 넣고
관계를 추론해서 다음에 나올 알파벳을 추론
ocr ai model
오픈데이터
ocr 논문 연구 용도
icdar(챌린지)
ai hub 공공데이터