효율적인 문서 이미지 향상 및 이진화를 위한 다중 스케일 특징 추출 GAN
초록
MFE‑GAN은 Haar 웨이브렛 변환과 정규화를 이용해 입력 이미지를 저해상도 저주파 서브밴드로 변환한 뒤, 경량화된 U‑Net++‑EfficientNetV2‑S 기반 생성기 4개와 공유 판별기를 사용해 색채 채널별로 독립적으로 강화한다. 이후 로컬·글로벌 두 단계의 이진화 GAN을 결합해 최종 이진 이미지를 얻으며, 전체 학습·추론 시간을 기존 6‑GAN 방식 대비 16 %~79 % 단축하면서 정확도는 기존 최첨단 수준을 유지한다.
상세 분석
본 논문은 색채 문서 이미지의 복합적인 저하 현상(노란 변색, 잉크 번짐, 그림자 등)을 해결하기 위해 기존에 각각의 색채 채널에 대해 별도 GAN을 학습시키는 방식이 연산 비용이 과다하다는 점에 주목한다. 이를 극복하기 위해 제안된 MFE‑GAN은 세 단계의 파이프라인으로 구성된다. 첫 번째 단계에서는 256×256 패치를 4채널(R, G, B, Gray)로 분리하고, 각 채널에 Haar 웨이브렛 변환(HWT)을 적용해 LL(저‑저) 서브밴드만을 추출한다. 이 서브밴드는 고주파 잡음이 크게 억제된 128×128 크기의 저주파 이미지이며, 정규화 과정을 거쳐 이후 GAN 학습에 입력된다. HWT 기반 다운샘플링은 단순 보간에 비해 경계와 텍스처 정보를 보존하면서도 연산량을 절반 이하로 감소시켜 학습 효율을 크게 높인다.
두 번째 단계에서는 U‑Net++ 구조에 EfficientNetV2‑S 백본을 결합한 4개의 독립 생성기를 사용한다. 각 생성기는 앞 단계에서 얻은 단일 채널 LL 서브밴드를 입력받아 동일한 해상도(128×128)의 강화된 서브이미지를 출력한다. 여기서 중요한 설계는 모든 생성기가 동일한 판별기(Improved PatchGAN)를 공유한다는 점이다. 판별기에는 첫 레이어를 제외한 모든 레이어에 인스턴스 정규화를 적용해 저레벨 색채 정보를 왜곡하지 않으면서도 학습 안정성을 확보한다. 4개의 서브이미지는 픽셀‑단위 합산 후 채널 차원을 복원해 원본 해상도와 동일한 강화 이미지를 만든다.
세 번째 단계는 로컬·글로벌 이진화를 동시에 수행하는 이중 GAN 구조이다. 강화 이미지 자체를 입력으로 로컬 이진화 GAN이 작동하고, 원본 이미지를 512×512로 확대한 뒤 별도 GAN이 글로벌 이진화를 수행한다. 두 결과는 논리곱(AND) 연산을 통해 최종 이진화 이미지로 결합된다. 이중 이진화는 작은 문자와 큰 레이아웃을 동시에 고려함으로써 기존 단일 스케일 이진화보다 텍스트와 배경 구분이 명확해진다.
손실 함수 측면에서는 W‑GAN‑GP 기반의 판별기 손실에 더해, 픽셀‑단위 정확도를 강조하는 Binary Cross‑Entropy(BCE)와 영역‑단위 겹침을 최적화하는 Soft‑Dice 손실을 가중치 λ₁, λ₂로 결합한다. BCE는 이진 분류에 특화돼 L₁ 손실보다 텍스트 경계 복원에 유리하고, Dice 손실은 전체 텍스트 블록의 완전성을 보강한다. 이러한 복합 손실은 학습 수렴을 안정화하고, 최종 이진화 품질을 향상시킨다.
실험에서는 Benchmark, Nabuco, CMATERdb 세 데이터셋을 사용해 기존 SOTA인 Suh et al. (6‑GAN)과 Ju et al. (3‑GAN) 대비 학습 시간과 추론 시간을 각각 16 %~79 % 및 17 %~35 % 단축하였다. 성능 지표(PSNR, FM, p‑FM, DRD)에서는 기존 방법과 동등하거나 약간 상회했으며, 특히 새로운 평균 점수 지표(ASM)를 도입해 PSNR만으로는 파악하기 어려운 품질 차이를 정량화했다. Ablation 연구에서는 HWT‑MFE 모듈 제거 시 학습·추론 시간이 급증하고 성능이 저하되는 것을 확인했으며, BCE·Dice 복합 손실을 사용하지 않을 경우 텍스트 경계가 흐려지는 현상이 나타났다.
요약하면, MFE‑GAN은 (1) Haar 웨이브렛 기반 다중 스케일 특징 추출로 입력 데이터를 효율적으로 압축, (2) 경량화된 U‑Net++‑EfficientNetV2‑S 생성기와 공유 판별기로 색채 채널별 독립 학습을 동시에 수행, (3) 로컬·글로벌 이진화 GAN을 결합해 텍스트와 배경을 정밀히 구분, (4) BCE와 Soft‑Dice를 결합한 손실 함수로 학습 안정성을 확보한다. 이 설계는 문서 이미지 전처리 단계에서 연산 비용을 크게 낮추면서도 OCR 전처리 품질을 유지하거나 향상시키는 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기