OCR 작업 계획 | Notion

광학 문자 인식

의미 : 사람의 문자를 이미지로 획득하여 기계가 읽을 수 있는 문자로 변환하는것

사용 목적 : 수동작업의 시간을 줄여서 효율성을 도모한다.

Untitled

이미지 입력

ocr수향 (딥러닝)

정보 정제 : bbox label

정보 출력

딥러닝 알고리즘

text detection :

이미지가 입력이 되면 존재하는 문자들의 위치가 출력됨

text recognition :

반환된 문자열의 위치를 통해 잘려진 이미지

문자로 인식해서 텍스트로 전환

detecter

bbox : 좌측상단 자표기준 박스

landmark : 구현이 복잡하지만 정확한 추출

multi-point : 매우 정확한 영역 추출, 로고나 휘어진 글씨

box Regression based(General Detector)

일반적인 검출기

텍스트만이 가진 특징을 반영하기가 힘듬

segmentation based

ocr 디텍터

가로로 길쭉하고 희어진 특성을 가질 수 있는 특성을 대비한다.

픽셀하나하나 마다의 뮈치가 텍스트에 해당하는 것인지가 중요(의미가 달라질 수 있음)

하이브리드

두가지 적절히

end-to-end

텍스트 디텍터와 텍스트 리코그니션을 하나의 모델로 해결

상호보완하며 성능 향상 가능

Recogition

이미지 내 문자열 인식

디텍터에 의해 잘려진 이미지들을 인식해서 문자열로 바꿈

모델 2가지

Rnn 계열 순환 신경계

이전에 나온 내용을 참고해서 다음에 나올 내용을 추론. 하지만 스탭이 진행될수록 잃어버리는 문제 발생

transfomer-최근 연구방식

언어 번역분야

인코더와 디코더 분야(번역)

Untitled

i am을 통해 저는을 추론

개발자

입니다를 추론

ocr에 있어서는 입력이 문자가 아니라 이미지

인코더로 이미지를 넣고

관계를 추론해서 다음에 나올 알파벳을 추론

ocr ai model

오픈데이터

ocr 논문 연구 용도

icdar(챌린지)

ai hub 공공데이터