각 이미지에 해당하는 annotation 값을 이용해 'bbox' 위치 정보로 단어 영역을 자름
<aside> 💡 LMDB DataSet이란 ?
Lightning Memory-Mapped Database
: 파일시스템에 저장된 데이터를 메모리로 바로 매핑해서 데이터를 효율적으로 읽고 쓸 수 있음
신경망 모델 학습 단계는 CLOVA AI에서 제공하는 DEEP_TEXT_RECOGNITION_BENCHMARK 오픈소스 프로젝트 이용
pip3 install fire
python3 create_lmdb_dataset.py --inputPath data/ --gtFile data/gt.txt --outputPath result/
data
├── gt.txt
└── test
├── word_1.png
├── word_2.png
├── word_3.png
└── ...
이걸 사용하려면, 디렉의 형태를 이렇게 바꾸어야함
pip3 install fire python3 create_lmdb_dataset.py --inputPath data/ --gtFile data/gt.txt --outputPath result/