구조적 예측 기반 선택적 의사라벨링을 이용한 비지도 도메인 적응

본 논문은 목표 도메인의 샘플이 깊은 특징 공간에서 군집화된다는 가정 하에, K‑means 클러스터링과 구조적 예측을 결합한 선택적 의사라벨링 방식을 제안한다. Supervised Locality Preserving Projection(SLPP)으로 도메인 불변 서브스페이스를 학습하고, 클러스터 중심과 원본 클래스 프로토타입을 매칭해 높은 신뢰도의 의사라벨만을 반복적으로 선택·갱신한다. 네 개의 표준 데이터셋(Office‑Caltech, Off…

저자: Qian Wang, Toby P. Breckon

구조적 예측 기반 선택적 의사라벨링을 이용한 비지도 도메인 적응
본 논문은 비지도 도메인 적응(Unsupervised Domain Adaptation, UDA) 문제를 다루며, 소스 도메인에만 라벨이 존재하고 목표 도메인에는 라벨이 전혀 없는 상황에서 두 도메인 간 분포 차이로 인한 성능 저하를 극복하고자 한다. 기존 연구들은 (1) 도메인 불변 특징 학습, (2) 적대적 학습, (3) 의사라벨링(pseudo‑labeling) 등 다양한 접근법을 제시했지만, 특히 의사라벨링 단계에서 발생하는 오류 누적이 큰 한계로 작용한다. 이에 저자들은 두 가지 주요 기여를 제시한다. 첫째, Supervised Locality Preserving Projection(SLPP)를 활용해 소스와 목표 데이터를 동시에 고려한 저차원 서브스페이스를 학습한다. SLPP는 라벨이 있는 샘플들 사이의 동일 클래스 유사성을 보존하면서, 라벨이 없는 목표 샘플을 포함한 전체 데이터에 대해 차원 축소와 정규화를 수행한다. 이를 통해 서로 다른 도메인의 샘플이 동일한 하이퍼스피어 위에 정렬되어, 거리 기반 분류기의 효율을 높인다. 둘째, 구조적 예측(Structured Prediction)을 기반으로 한 선택적 의사라벨링 전략을 도입한다. 목표 도메인의 특징 공간에서 K‑means 클러스터링을 수행해 군집을 형성하고, 각 클러스터 중심을 소스 도메인의 클래스 프로토타입과 매칭한다. 매칭은 최소 거리 기반 매핑으로 수행되며, 클러스터 내부에서 중심에 가까운 샘플을 우선적으로 선택한다. 이 과정은 ‘Nearest Class Prototype(NCP)’ 방식과 병행되며, NCP는 소스 클래스 평균 벡터와의 거리로 라벨을 부여한다. 두 라벨링 방법을 결합함으로써 (i) 소스와 멀리 떨어진 목표 샘플을 먼저 라벨링해 초기 단계에서 쉬운 클래스에 편향되는 문제를 완화하고, (ii) 클러스터 구조를 활용해 라벨링 정확도를 향상시킨다. 알고리즘 흐름은 다음과 같다. 1) 원본 고차원 특징을 PCA와 L2 정규화로 전처리한다. 2) 전처리된 특징을 SLPP에 입력해 초기 투영 행렬 P를 학습한다. 3) 투영된 특징 공간 Z에서 NCP와 구조적 예측 기반 두 라벨링 방식을 적용해 의사라벨을 생성한다. 4) 신뢰도가 높은 의사라벨을 선택해 라벨링된 목표 샘플을 라벨이 있는 데이터 집합에 추가하고, 이를 이용해 SLPP를 다시 학습한다. 5) 3‑4 과정을 라벨링 정확도가 수렴할 때까지 반복한다. 실험에서는 Office‑Caltech, Office31, ImageCLEF‑DA, Office‑Home 네 개의 표준 도메인 적응 데이터셋을 사용했다. 각 데이터셋에 대해 12개의 도메인 전이 시나리오를 설정하고, 기존 최첨단 방법(DANN, CDAN, MADA, BNM 등)과 비교하였다. 제안 방법은 평균 정확도에서 1.2%~3.5%p의 향상을 보였으며, 특히 클래스 불균형이 심한 Office‑Home에서 가장 큰 성능 차이를 기록했다. Ablation study에서는 (a) SLPP만 사용, (b) NCP만 사용, (c) 구조적 예측만 사용, (d) 두 라벨링을 결합한 경우를 비교했으며, (d) 조합이 가장 높은 정확도를 달성함을 확인했다. 또한, 클러스터 수(K)와 선택 임계값에 대한 민감도 분석을 수행해 제안 방법이 비교적 안정적임을 입증했다. 복잡도 측면에서, PCA와 SLPP는 각각 O(dn²)와 O(d₁n) 수준의 연산을 요구하며, K‑means 클러스터링은 반복 횟수에 따라 O(Knt) 정도의 비용이 발생한다. 전체 파이프라인은 딥러닝 기반 UDA 모델에 비해 상대적으로 가벼우며, 기존 학습된 특징(예: ResNet‑50) 위에 바로 적용 가능하다. 한계점으로는 (1) 클러스터링이 초기 특징 품질에 크게 의존한다는 점, (2) 클러스터 수 K를 사전에 지정해야 하는데, 최적 K를 찾기 위한 추가 탐색이 필요할 수 있다는 점, (3) 대규모 데이터셋에 대한 확장성 검증이 부족하다는 점을 들 수 있다. 향후 연구에서는 자동 K 선택 메커니즘, 클러스터링과 SLPP를 공동 최적화하는 통합 프레임워크, 그리고 비선형 투영을 위한 커널 기반 SLPP 등을 탐색할 예정이다. 결론적으로, 구조적 예측을 활용한 선택적 의사라벨링과 SLPP 기반 도메인 정렬을 결합함으로써, 목표 도메인의 구조적 정보를 효과적으로 이용하고, 라벨링 오류 누적을 최소화하면서 기존 방법들을 능가하는 성능을 달성한 점이 본 논문의 주요 공헌이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기