전경배경 분할을 위한 약지도 마스크드 RBM
초록
본 논문은 제한 볼츠만 머신(RBM)을 확장하여 전경 객체의 형태와 외관을 배경와 독립적으로 모델링하는 마스크드 RBM(MRBM)을 제안한다. 약한 지도학습—즉, 배경에 대한 일반적인 통계만을 사전 학습하고, 실제 학습에서는 레이블이 없는 혼합 이미지만을 사용—을 통해 전경‑배경 분할과 새로운 전경 샘플 생성이 가능함을 보인다. 실험에서는 인공 데이터와 얼굴 이미지(LFW‑A)에서 높은 분할 정확도와 배경에 강인한 특징 표현을 확인하였다.
상세 분석
이 연구는 기존 RBM이 단일 이미지 전체를 하나의 통계적 모델로 취급하는 한계를 극복하고, 이미지 내에 존재하는 전경과 배경을 각각 별개의 확률 모델로 분리한다는 점에서 혁신적이다. 구체적으로 저자는 두 개의 독립적인 RBM—배경용 베타 RBM과 전경용 혼합형 RBM—을 도입하고, 전경의 형태를 이진 마스크 m 으로, 외관을 연속값 이미지 v_F 로 표현한다. 관측 이미지 x 는 마스크에 따라 각 픽셀이 전경 이미지 v_F 또는 배경 이미지 v_B 중 하나와 일치하도록 정의되는 픽셀‑와이즈 이진 혼합 모델로 수식화된다(식 1).
전경 모델은 형태와 외관이 상호 의존한다는 가정을 반영해, 마스크와 외관을 동시에 다루는 “혼합 에너지”(E_mixed) 함수를 사용한다. 이 에너지 함수는 이진 RBM(마스크 전용)과 베타 RBM(연속값 외관 전용)의 에너지들을 단순히 합산한 형태이며, 이를 통해 마스크와 외관 사이의 복합적인 상관관계를 학습한다.
추론 단계에서는 Gibbs 샘플링을 이용해 (h_F, h_B) → (m, v_F, v_B) → 다시 (h_F, h_B) 의 순환을 수행한다. 특히 마스크 m_i 의 사후 확률은 전경·배경 각각의 조건부 확률을 곱한 형태로 계산되며(식 4), 마스크가 1일 경우 전경 픽셀 값은 관측값 x_i 와 일치하도록 고정하고, 배경은 전경 모델에 의해 샘플링된다(식 5). 이러한 구조는 전경‑배경이 서로 독립적인 마코프 체인으로 유지되면서도, 관측 데이터에 대한 정확한 재구성을 가능하게 한다.
학습은 EM‑유사 절차로 진행된다. 먼저 현재 파라미터 하에서 마스크와 전·배경 이미지의 잠재 변수를 추정하고, 추정된 변수들을 “관측 데이터”로 간주해 각각의 RBM을 표준 CD 혹은 SML 방식으로 업데이트한다. 완전 무지도 학습은 매우 어려워, 저자는 배경에 대한 사전 지식을 제공하기 위해 대규모 자연 이미지 패치를 이용해 베타 RBM을 사전 학습한다. 이렇게 얻어진 배경 모델은 전경을 “이상치”로 탐지하는 역할을 수행하고, 반복 학습을 통해 전경 모델이 점차 정교해진다.
실험에서는 16×16 픽셀의 인공 데이터와 32×32 픽셀로 축소된 LFW‑A 얼굴 데이터를 사용했다. 인공 데이터에서는 전경 객체(사각형·원형)의 형태와 텍스처가 정확히 학습되어, 샘플링된 전경‑배경 합성 이미지가 원본과 거의 구별되지 않을 정도였다. 얼굴 데이터에서는 배경 모델이 충분히 강력하지 않을 경우 일부 배경 픽셀이 전경으로 오인되는 현상이 있었으며, 이를 해결하기 위해 배경 픽셀에 대한 “아웃라이어” 컴포넌트(균일 분포) 를 도입해 잡음에 대한 강인성을 높였다.
분할 성능은 픽셀 정확도 96%에 달했으며, 전경‑배경을 분리한 후 전경 특징만을 이용한 간단한 로지스틱 분류 실험에서 데이터가 적을수록 전통적인 RBM보다 현저히 높은 정확도를 보였다(예: 10개 샘플당 66% vs 8%). 이는 배경을 무시하고 전경에 집중함으로써 특징 표현이 잡음에 덜 영향을 받는다는 것을 실증한다. 또한, 학습된 전경 모델은 다양한 얼굴 자세와 헤어스타일을 포괄적으로 캡처했으며, 샘플링 결과에서도 남·여 얼굴, 다양한 포즈가 자연스럽게 재현되었다.
전반적으로 이 논문은 제한된 라벨링만으로도 복합적인 전경‑배경 구조를 학습할 수 있는 프레임워크를 제시하고, 마스크와 외관을 공동으로 모델링하는 새로운 RBM 변형을 통해 이미지 분할 및 특징 추출에서 기존 방법보다 우수한 성능을 입증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기