책 이미지 왜곡 보정의 새로운 패러다임, BookNet
초록
BookNet은 좌·우 페이지가 서로 다른 곡률을 보이는 책 사진을 위해 설계된 최초의 듀얼‑페이지 딥러닝 프레임워크이다. 양쪽 페이지별 흐름과 전체 스프레드를 동시에 예측하는 교차‑페이지 어텐션 구조를 도입해 기존 단일‑페이지 보정 방법의 한계를 극복한다. 합성 데이터셋 Book3D(56 k 이미지)와 실세계 벤치마크 Book100(100장)을 구축해 학습·평가를 수행했으며, 실험 결과 최신 문서 보정 모델들을 크게 앞선 정확도와 시각적 품질을 달성한다.
상세 분석
BookNet은 책이라는 특수한 문서 형태가 갖는 “양쪽 페이지가 물리적으로 결합돼 비대칭적인 곡률을 만든다”는 핵심 문제를 정확히 짚고 있다. 이를 해결하기 위해 저자는 세 가지 흐름(왼쪽 페이지 흐름 Ml, 오른쪽 페이지 흐름 Mr, 전체 스프레드 흐름 Mf)을 동시에 예측하도록 설계했으며, 특히 교차‑페이지 어텐션(cross‑page attention) 메커니즘을 통해 두 페이지 간의 기하학적 상호작용을 학습한다.
구조적으로는 1/8 해상도의 특징을 추출하는 경량 ResNet 백본에 4계층 Transformer 인코더를 결합해 전역적인 공간 의존성을 포착한다. 이후 두 개의 디코더 브랜치가 각각 페이지‑전용 쿼리(Ql, Qr)를 받아 독립적으로 초기 변형을 학습하고, 두 번째 단계에서 양방향 교차‑어텐션을 적용해 서로의 정보를 교환한다. 이 과정에서 페이지별 변형 특성을 보존하면서도 결합된 전체 형태를 일관되게 정합한다는 점이 핵심이다.
흐름 합성 단계에서는 각 브랜치에서 얻은 저해상도 흐름을 고해상도로 업샘플링하고, 최종적으로 전체 흐름 Mf만을 사용해 차별화된 bilinear 샘플링으로 이미지 를 복원한다. 학습 시에는 세 흐름 모두에 L1‑flow 손실과 정규화(스무딩) 항을 적용해 기하학적 정확성을 강화한다.
데이터 측면에서 저자는 기존 Doc3D와 달리 책 특유의 3D 변형을 물리 기반 렌더링 파이프라인(Blender Cycles)으로 합성한 Book3D를 56 000장 제공한다. 페이지 내용은 arXiv 논문 PDF를 활용해 텍스트·수식·표·그림 등 복합 레이아웃을 그대로 재현했으며, UV 맵·깊이·마스크 등 풍부한 라벨을 함께 제공한다. 실세계 평가용 Book100은 스마트폰으로 촬영한 100장의 다양한 언어·조명·시점 사진과 고해상도 스캔을 매칭해, 실제 디지털화 환경에서의 성능을 검증한다.
실험 결과는 정량적 지표(예: MS‑SSIM, LPIPS, 평균 절대 오차)와 정성적 시각 비교 모두에서 기존 단일‑페이지 모델(DocUNet, DewarpNet, DocTR 등)을 크게 앞선다. 특히 페이지 경계에서 발생하던 끊김·왜곡이 최소화되고, 텍스트 라인과 수식의 기하학적 정확도가 현저히 개선되었다.
한계점으로는 현재 흐름 예측이 2D 픽셀 수준에 머물러 3D 복원이나 페이지 두께 변화를 완전히 모델링하지 못한다는 점, 그리고 실시간 모바일 적용을 위한 경량화가 추가로 필요하다는 점을 들 수 있다. 향후 연구는 3D 형태 복원, 멀티뷰 통합, 그리고 경량 Transformer 설계 등을 통해 실시간 책 스캔 어플리케이션에 적용하는 방향이 유망하다.
댓글 및 학술 토론
Loading comments...
의견 남기기