이미지 레벨 라벨만으로 객체 경계 탐지와 분류
본 논문은 픽셀 수준의 경계 라벨 없이, 이미지 전체 라벨만으로 학습된 분류기를 활용해 객체 경계와 클래스 라벨을 동시에 예측하는 방법을 제안한다. 테스트 단계에서 분류 결과에 대한 그래디언트, Deconvolution, Layer‑wise Relevance Propagation(LRP) 등을 이용해 픽셀‑단위 점수를 추출하고, 이를 경계 후보로 활용한다. 실험 결과, 전통적인 픽셀‑라벨 기반 방법보다 낮은 성능이지만, 기존 무지도 경계 탐지 …
저자: Jing Yu Koh, Wojciech Samek, Klaus-Robert M"uller
**1. 서론 및 연구 배경**
Semantic Boundary Detection(SBD)은 객체의 경계 픽셀을 찾고, 해당 픽셀에 클래스 라벨을 부여하는 복합 과제이다. 기존 연구들은 픽셀‑레벨 경계 라벨을 이용해 엔드‑투‑엔드 방식으로 학습했으며, 라벨링 비용이 매우 높아 실제 적용에 제약이 있었다. 본 논문은 이러한 제약을 극복하고자, 오직 이미지‑레벨 라벨(바운딩 박스)만으로 학습된 이미지 분류기를 활용해 SBD를 수행하는 ‘거의 제로샷’ 접근법을 제안한다.
**2. 문제 정의와 접근법**
학습 단계에서는 전통적인 다중 라벨 이미지 분류기(예: VGG‑16 기반 Pascal VOC 분류기)를 사용한다. 테스트 단계는 두 단계로 구성된다. (1) 이미지에 대해 분류기를 적용해 존재 클래스들을 예측한다. (2) 예측된 클래스에 대해 픽셀‑단위 점수를 계산한다. 점수 계산 방법으로는 (a) Gradient, (b) Deconvolution, (c) Layer‑wise Relevance Propagation(LRP) 세 가지를 채택한다. 각 방법은 아래와 같이 수식화된다.
- **Gradient**: s(p)=‖∂f_c/∂x_p‖₂ (또는 절댓값 합)
- **Deconvolution**: s(p,s)=f_c·w_{p,s} (전치 필터를 이용)
- **LRP**: 출력 스코어 f_c를 초기값으로 두고, 보존 규칙에 따라 각 레이어를 역전파해 R^{(1)}_p를 얻는다. ε‑variant와 β‑variant(α‑β 규칙) 두 변형을 실험한다.
**3. 실험 설정**
데이터셋은 SBD benchmark와 Pascal VOC 이미지‑레벨 라벨을 사용한다. 학습 시 픽셀 라벨을 전혀 사용하지 않으며, 테스트 시에는 경계에 대한 픽셀‑레벨 정답을 이용해 정밀도(AP)와 최대 F‑score(MF)를 측정한다. 비교 대상은 (1) 기존 무지도 경계 탐지기 InvDet, (2) 픽셀 라벨을 이용한 최신 경계 탐지기 HFL.
**4. 결과 및 분석**
표 1에 따르면, Gradient, Deconvolution, LRP‑β=0, LRP‑ε=1 등은 모두 InvDet(22.5 % AP, 31.0 % MF)보다 높은 성능을 보인다. 특히 LRP‑β=0이 31.4 % AP와 38.0 % MF를 기록, 가장 우수했다. 그러나 픽셀 라벨을 사용한 HFL(54.6 % AP, 62.5 % MF)에는 크게 뒤처진다. 이는 라벨이 없는 상황에서도 의미 있는 경계 정보를 추출할 수 있음을 증명한다.
**5. 시각화 기법의 한계**
경계 픽셀이 분류기에 가장 중요한 요소가 아니라는 가설을 검증하기 위해 perturbation analysis를 수행했다. ground‑truth 경계 픽셀을 무작위 색상으로 교체했을 때와, 시각화 기법이 선택한 상위 점수 픽셀을 교체했을 때의 클래스 스코어 감소를 비교하였다. 결과(Tabel 3)에서 ground‑truth 픽셀 교체 시 평균 스코어 감소가 7.73, Deconv 교체 시 5.68, LRP‑ε 교체 시 1.73으로, 시각화 기법이 선택한 픽셀이 실제 분류에 더 큰 영향을 미치지 않음을 확인했다. 이는 현재 이미지‑레벨 분류기가 객체 내부 텍스처와 패턴에 더 민감하게 학습된다는 점을 시사한다.
**6. 논의 및 향후 연구 방향**
본 접근법은 라벨링 비용을 크게 절감하면서도 기존 무지도 방법보다 뛰어난 성능을 제공한다. 그러나 (1) 경계와 분류 결정 사이의 불일치, (2) 전체 성능이 픽셀‑라벨 기반 최첨단 방법에 비해 낮음, (3) 시각화 기법이 경계와 정확히 일치하지 않는다는 한계가 있다. 향후 연구는 (a) 경계에 특화된 사전 학습 혹은 도메인 적응, (b) 멀티‑스케일·멀티‑레벨 시각화 결합, (c) 경계와 텍스처를 동시에 고려하는 손실 함수 설계 등을 통해 성능을 향상시킬 수 있다.
**7. 결론**
이미지‑레벨 라벨만을 이용한 분류기와 시각화 기법을 결합함으로써, 픽셀‑레벨 경계 라벨이 없는 상황에서도 의미 있는 객체 경계와 클래스 라벨을 추정할 수 있음을 입증하였다. 이 방법은 라벨링 비용이 제한적인 실제 응용 분야에서 유용한 대안이 될 수 있으며, 향후 시각화 기법과 경계 탐지 모델의 통합 연구에 중요한 출발점을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기