인터랙티브 이미지 복원: 인간‑기계 협업으로 투명성·품질 향상

** 본 논문은 Deep Image Prior(DIP)를 기반으로 인간이 직접 그림을 그리며 피드백을 주는 인터랙티브 프레임워크(iDIP)를 제안한다. 이미지 사전(prior)과 인간의 직관을 반복적으로 결합해 복원 품질을 높이고, 사용자는 진행 상황을 실시간으로 확인함으로써 통제감과 신뢰를 얻는다. 객관적 지표와 주관적 사용자 조사 모두에서 기존 비인터랙티브 방법보다 우수한 결과를 보였다. **

저자: Zhiwei Han, Thomas Weber, Stefan Matthes

인터랙티브 이미지 복원: 인간‑기계 협업으로 투명성·품질 향상
** 본 논문은 “인터랙티브 이미지 복원(Interactive Image Restoration)”이라는 주제로, 인간‑기계 협업을 통해 이미지 복원 알고리즘의 투명성, 사용자 만족도, 그리고 복원 품질을 동시에 향상시키는 새로운 프레임워크(iDIP)를 제안한다. 기존 Deep Image Prior(DIP)는 이미지 자체를 사전(prior)으로 활용해 손상된 영역을 복원하는 비지도 학습 방식이다. DIP는 사전 학습된 가중치가 없고, 작은 데이터셋에서도 작동한다는 장점이 있지만, 학습 과정이 완전히 자동화되어 있어 인간의 직관적인 의미 정보를 반영하기 어렵고, 결과물에 대한 통제감이 부족하다는 단점이 있다. 이를 보완하고자 저자들은 인간이 직접 손상 영역에 색을 칠하거나 마스크를 수정하는 “Human‑in‑the‑Loop” 방식을 도입했다. iDIP의 핵심 흐름은 다음과 같다. (1) 현재 복원된 이미지 xⁿ을 사용자에게 보여준다. (2) 사용자는 색칠·마스크 수정 등을 통해 보정된 이미지 x₀ⁿ을 만든다. (3) 네트워크는 기존 DIP 손실 함수 L = ‖(fθ(z) – x₀) ⊙ m₀‖²에 사용자가 만든 x₀ⁿ을 입력으로 넣어 재학습하고, 새로운 복원 결과 x*ⁿ을 생성한다. 이 과정이 반복되면서 인간의 피드백이 점점 더 강하게 반영된다. 시스템 UI는 중앙에 현재 복원 이미지, 좌측에 원본 마스크, 색상 선택 도구 등을 배치해 직관적인 조작을 가능하게 한다. 사용자는 매 iteration마다 결과를 확인하고, 필요에 따라 조기 종료(early stopping)를 선택할 수 있다. 이는 과적합을 방지하고, 사용자가 원하는 품질 수준에서 작업을 마칠 수 있게 한다. 실험은 두 부분으로 나뉜다. 첫 번째는 객관적 성능 평가이며, Dunhuang 고대 벽화 데이터셋(총 500장 중 10장을 무작위 선택)에서 인공 마스크를 적용해 복원 실험을 진행했다. 비교 대상은 EdgeConnect, PartialConv, PatchMatch, PatchOffset, 기존 DIP 등 다섯 가지 최신 방법이다. 평가 지표는 DSSIM(1‑SSIM²)과 LMSE(=MSE)이며, 낮은 값이 좋은 성능을 의미한다. 결과는 iDIP가 DSSIM에서 가장 낮은(0.2227) 값을 기록했고, LMSE에서는 두 번째(207.37)로 DIP(214.23)보다 약간 우수했다. 특히 PatchMatch가 LMSE에서는 최우수(185.68)였지만, 주관적 평가에서는 크게 뒤처졌다. 두 번째는 주관적 사용자 평가이다. 19명의 비전문가(성별·연령 고루 분포)에게 각 이미지에 대해 여섯 알고리즘이 만든 복원 결과 중 상위 두 개를 선택하도록 요청했다. 결과는 DIP 계열이 압도적으로 많이 선택되었으며, iDIP가 DIP보다 높은 선택률을 보였다. 이는 인간의 피드백이 실제 시각적 만족도에 긍정적인 영향을 미쳤음을 의미한다. 사용자 연구에서는 SUS(System Usability Scale) 평균 86점(100점 만점)과 NASA‑TLX 평균 3.4점(10점 만점)이라는 높은 만족도와 낮은 작업 부하를 기록했다. 또한 인터랙티브 ML이 이미지 복원에 적합하다는 인식(4.5/5)과 비인터랙티브 ML(0.9/5)·수동 방식(1.8/5)이 더 나을 것이라는 의견이 거의 없었다. 이는 시스템이 제공하는 실시간 피드백과 직관적인 인터페이스가 사용자의 신뢰와 몰입을 크게 높였다는 증거이다. 논문의 한계로는 첫째, 실험이 제한된 도메인(고대 회화)과 작은 샘플 수에 머물러 있어 일반화 가능성이 검증되지 않았다. 둘째, 인간 입력의 품질에 크게 의존하므로, 초보 사용자가 만든 부정확한 페인팅이 오히려 성능을 저하시킬 위험이 있다. 셋째, 매 iteration마다 전체 네트워크를 재학습하는 구조는 연산 비용이 높아 실시간 인터랙션에 제약이 있다. 향후 경량화된 모델, 부분 파라미터 업데이트, 혹은 GPU‑클라우드 기반 실시간 서비스 등이 필요하다. 결론적으로, iDIP는 이미지 사전과 인간의 의미적 직관을 반복적으로 결합함으로써 복원 품질을 향상시키고, 사용자는 진행 상황을 실시간으로 확인해 통제감과 신뢰를 얻는다. 이는 인터랙티브 머신러닝이 비지도·반지도 문제에 적용될 수 있는 강력한 사례이며, 향후 다양한 비전·그래픽스 분야에 확장될 가능성을 시사한다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기