데이터 분석

데이터 1차 가공 - AI HUB 데이터 분할

데이터 2차 가공

각 이미지에 해당하는 annotation 값을 이용해 'bbox' 위치 정보로 단어 영역을 자름

<aside> 💡 LMDB DataSet이란 ?

Lightning Memory-Mapped Database

: 파일시스템에 저장된 데이터를 메모리로 바로 매핑해서 데이터를 효율적으로 읽고 쓸 수 있음

신경망 모델 학습 단계는 CLOVA AI에서 제공하는 DEEP_TEXT_RECOGNITION_BENCHMARK 오픈소스 프로젝트 이용

pip3 install fire
python3 create_lmdb_dataset.py --inputPath data/ --gtFile data/gt.txt --outputPath result/
data
├── gt.txt
└── test
    ├── word_1.png
    ├── word_2.png
    ├── word_3.png
    └── ...

이걸 사용하려면, 디렉의 형태를 이렇게 바꾸어야함

pip3 install fire python3 create_lmdb_dataset.py --inputPath data/ --gtFile data/gt.txt --outputPath result/