인스턴스 없는 도메인 적응 객체 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 목표 도메인에 객체가 전혀 포함되지 않은 배경 이미지만 이용해 객체 탐지 모델을 적응시키는 새로운 문제인 “Instance‑Free Domain Adaptive Object Detection”을 정의한다. 제안된 Relational and Structural Consistency Network(RSCN)는 배경 프로토타입 정렬(BPA), 전·후배경 간 상대 공간 조화(RSH), 그리고 소스 도메인 구조 보존(SSP)이라는 세 가지 제약을 통해 소스 도메인의 전경‑배경 관계를 유지하면서 목표 도메인의 배경 특성을 정렬한다. 세 개의 실세계·시뮬레이션 벤치마크(자동차, 야생동물, 폐 결절)에서 기존 DAOD 방법들을 크게 앞서며, 목표 도메인에 전경이 전혀 없을 때도 강인한 탐지 성능을 달성한다.

상세 분석

이 논문은 기존 도메인 적응 객체 탐지(DAOD) 연구가 전제하는 “목표 도메인에 충분한 전경 인스턴스가 존재한다”는 가정을 깨고, 전경이 전혀 없는 배경 이미지만으로도 적응이 가능하도록 하는 문제 설정을 제시한다. 이는 야생동물 모니터링이나 의료 영상처럼 전경 라벨링이 비용적으로 불가능하거나 희소한 상황에 직접 적용될 수 있다.
핵심 아이디어는 “배경 프로토타입”을 중심으로 도메인 정렬을 수행하고, 소스 도메인의 전경 프로토타입과 배경 프로토타입 사이의 상대적 기하학적 관계를 목표 도메인 배경에 그대로 전이시키는 것이다. 구체적으로, Faster R‑CNN 기반 탐지기에서 RPN이 생성한 proposal feature를 평균 풀링해 클래스별 전경 프로토타입(p_s^c)와 배경 프로토타입(p_s^bg), 목표 도메인 배경 프로토타입(p_t^bg)을 만든다.

배경 프로토타입 정렬(BPA): 도메인 구분기 D_bg를 이용해 p_s^bg와 p_t^bg를 adversarial하게 정렬한다. GRL을 통해 탐지기의 특징 추출기가 두 도메인을 구분하지 못하도록 학습한다. 이는 전통적인 이미지‑레벨 혹은 인스턴스‑레벨 적응과 달리 클래스‑불변 배경에만 초점을 맞추어, 전경 라벨이 없는 상황에서도 안정적인 정렬을 가능하게 한다.
상대 공간 조화(RSH): 전경 프로토타입을 “앵커”로 삼아 배경‑전경 벡터 차이를 정규화(N)하고, 소스와 목표 도메인 간 차이(d_s^c, d_t^c)를 L1 손실로 최소화한다. 이 과정은 다중 전경 클래스 관점에서 배경 프로토타입이 동일한 상대 위치에 놓이도록 강제함으로써, 단순한 배경 정렬이 아닌 구조적 정렬을 구현한다. 결과적으로 목표 배경이 소스 전경‑배경 관계를 내재화하게 된다.
소스 구조 보존(SSP): RSH만 적용하면 소스 도메인 내부의 클래스 구분력이 약화될 위험이 있다. 이를 방지하기 위해 “고정된 레퍼런스 탐지기”를 도입해 소스 전경‑배경 구조를 유지한다. 레퍼런스 탐지기의 특징은 학습 중 고정하고, 현재 탐지기의 특징이 레퍼런스와 크게 차이나지 않도록 거리 기반 손실을 적용한다. 이는 특징 붕괴를 방지하고, 소스 도메인의 판별적 구조를 유지하면서 배경 정렬을 수행한다.
제안된 RSCN은 세 손실을 가중합해 최종 목표 함수를 구성한다: L = L_det(소스) + λ1·L_BPA + λ2·L_RSH + λ3·L_SSP. 여기서 L_det는 기존 Faster R‑CNN의 지도 학습 손실이며, λ는 각 손실의 중요도를 조절한다.
실험에서는 세 가지 벤치마크를 구축하였다. (1) CARLA 기반 시뮬레이션 자동운전 데이터, (2) 야생동물 카메라 트랩 이미지, (3) 폐 결절 CT 스캔. 모든 벤치마크에서 목표 도메인에 전경이 전혀 없는 “인스턴스‑프리” 설정을 적용했으며, 기존 DAOD 방법(DA‑Faster R‑CNN, SWDA, HT, CAT 등)은 대부분 성능이 급격히 하락한다. 반면 RSCN은 평균 7~12% AP 상승을 기록했고, 특히 의료 영상에서 작은 결절 검출률이 크게 개선되었다.
이 논문의 기여는 (1) 실용적인 제약을 반영한 새로운 문제 정의, (2) 배경 프로토타입 기반 정렬과 전경‑배경 상대 관계를 동시에 활용하는 네트워크 설계, (3) 공개 벤치마크 제공이다. 제한점으로는 배경 프로토타입이 충분히 대표성을 가질 경우에만 효과적이며, 매우 복잡하거나 다중 스케일 배경을 가진 도메인에서는 프로토타입 추출이 어려울 수 있다. 향후 연구는 프로토타입을 동적으로 업데이트하거나, 멀티‑레벨 특징을 결합해 더 정교한 구조 정렬을 탐구할 여지가 있다.

인스턴스 없는 도메인 적응 객체 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기