지역 인식 확산 모델을 이용한 초고속 이미지 인페인팅

지역 인식 확산 모델을 이용한 초고속 이미지 인페인팅
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RAD는 각 픽셀마다 서로 다른 노이즈 스케줄을 적용해 비동기적으로 영역을 복원하는 확산 기반 인페인팅 방법이다. 기존 방법과 달리 별도의 조건 모듈 없이 순수 역전 과정을 사용해 추론 속도를 최대 100배 가속화하고, LoRA를 활용해 사전 학습된 모델을 효율적으로 파인튜닝한다. FFHQ, LSUN Bedroom, ImageNet에서 정량·정성 모두 최고 수준의 성능을 보인다.

상세 분석

본 논문은 확산 모델(DDPM)의 기본 가정을 “픽셀 단위로 동일한 노이즈 스케줄을 적용한다”는 전제에서 벗어나, 각 픽셀에 독립적인 노이즈 스케줄을 부여한다는 혁신적인 아이디어를 제시한다. 이를 통해 마스크 영역에만 노이즈를 주입하고, 역전 과정에서 해당 영역만을 비동기적으로 복원하도록 설계하였다. 핵심 기술은 크게 네 가지로 나뉜다. 첫째, 픽셀‑별 노이즈 스케줄을 정의한 전·후방 과정이다. 기존 DDPM은 전체 이미지에 동일한 β_t를 적용하지만, RAD는 b_{t,i}=β_t·m_i 형태(여기서 m_i는 마스크 여부)로 정의해 마스크 안·밖을 구분한다. 둘째, 현실적인 인페인팅 패턴을 모사하기 위해 Perlin 노이즈 기반의 스케줄을 무작위 생성한다. 단순히 픽셀별 독립 샘플링을 하면 공간적 연속성이 결여돼 학습이 불안정해지므로, Perlin 노이즈를 이용해 부드러운 영역 구성을 제공한다. 셋째, 공간 노이즈 임베딩이다. 각 픽셀의 현재 노이즈 레벨 b_{t,i}를 위치 정보와 결합해 1×1 컨볼루션으로 변환, U‑Net의 인코더에 추가함으로써 네트워크가 “이 픽셀은 아직 노이즈가 남아 있다”는 정보를 명시적으로 인식하도록 한다. 넷째, 역‑매핑 단계에서 \bar{b}가 1이 되는 경우(즉, 해당 픽셀에 노이즈가 전혀 주입되지 않은 경우)에는 평균을 그대로 복원하도록 특수 처리를 해 division‑by‑zero 문제를 회피한다.

학습 손실은 기존 DDPM의 ε‑예측 L2 손실을 그대로 사용하지만, 각 픽셀마다 서로 다른 a_{t,i}, \bar{a}{t,i}를 적용해 element‑wise로 계산한다. 이때 노이즈 스케줄 자체가 확률 변수이므로, 기대값 연산에 스케줄 분포 q(b{1:T})를 포함한다. 실험에서는 두 단계(Phase 1: 마스크 내부에만 노이즈, Phase 2: 마스크 외부에 노이즈)로 구성된 선형 β 스케줄을 사용했으며, 두 단계의 총 타임스텝 T는 기존 DDPM과 동일하게 유지하면서 각 단계별 β를 정규화해 최종 노이즈 레벨이 일관되도록 설계했다.

효율성 측면에서 가장 큰 장점은 별도의 “재샘플링”이나 “조건 인코더”가 필요 없다는 점이다. 기존 RePaint, MCG 등은 마스크와 비마스크 영역을 맞추기 위해 여러 번의 전·후방 루프를 도입해 추론 시간이 수십 배 늘어났지만, RAD는 한 번의 역전 과정만으로 마스크 영역을 완전 복원한다. 또한 LoRA를 적용해 사전 학습된 Stable Diffusion 혹은 ADM 모델의 가중치를 저차원 행렬로 근사하고, 이 저차원 파라미터만 업데이트함으로써 GPU 메모리와 학습 시간 모두 크게 절감한다.

성능 평가에서는 FFHQ(인물), LSUN Bedroom(실내), ImageNet(다양한 객체) 세 데이터셋에 대해 FID, LPIPS, PSNR 등 다중 지표에서 기존 최첨단 방법들을 앞섰다. 특히 추론 시간은 평균 0.02 s 수준으로, 동일 하드웨어에서 기존 방법이 1 s 이상 걸리던 것에 비해 50~100배 가속화되었다. Ablation 실험을 통해 (1) 픽셀‑별 노이즈 스케줄 없이는 성능이 급격히 저하되고, (2) Perlin 기반 스케줄이 무작위 스케줄보다 학습 안정성을 크게 향상시키며, (3) 공간 노이즈 임베딩이 없을 경우 U‑Net이 노이즈 레벨을 구분하지 못해 결과가 흐릿해지는 것을 확인했다.

요약하면, RAD는 “노이즈를 어디에, 어떻게 넣을 것인가”라는 가장 근본적인 설계 선택을 재구성함으로써, 복잡한 추가 모듈 없이도 빠르고 고품질의 이미지 인페인팅을 구현한다. 이는 확산 모델이 본래 “전역적인” 이미지 생성에 최적화돼 있었던 한계를 지역‑인식 형태로 확장한 사례라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기