반지도학습 기반 비선형 거리 학습: 최대 마진 클러스터 계층 숲

**1. 서론 및 배경** 거리 측정은 최근·과거의 거의 모든 데이터 마이닝·머신러닝 작업(k‑NN 분류, 이미지 검색, 클러스터링)의 핵심이다. 전통적으로 Mahalanobis 형태의 선형 메트릭이 주류를 이루었으며, 최적화가 비교적 용이하고 전역 최적해를 보장한다는 장점이 있었다. 그러나 이미지·비디오·문서와 같이 비선형 구조를 가진 데이터에 대해서는 선형 메트릭이 의미 있는 의미론적 거리를 포착하지 못한다. 커널 기반 Mahalanobis 확장은 이 문제를 완화하려 했지만, 차원 폭발과 높은 계산 비용이 실용성을 저해한다. 최근에는 트리 구조를 이용한 비선형 메트릭이 주목받고 있다. Kedem 등은 회귀 트리를, 저자들은 랜덤 포레스트 기반 메트릭(RFD)을 제안했지만, 각각 과적합·추론 비용 문제를 안고 있었다. **2. 제안 방법: Hierarchy Forest Distance (HFD)** 본 논문은 이러한 한계를 극복하기 위해 ‘클러스터 계층 숲’이라는 새로운 프레임워크를 제시한다. HFD는 T개의 독립적인 트리를 학습하며, 각 트리는 데이터 전체를 점진적으로 이진 분할하는 계층적 클러스터링 과정으로 구성된다. 트리의 각 노드는 선형 판별 함수 \(S_{tl}(x)=\text{sign}(w_{tl}^\top x_{K_{tl}})\) 로 정의되고, 이 함수는 반지도학습 최대 마진 클러스터링(SS‑MMC)으로 학습된다. **3. 반지도 최대 마진 클러스터링** SS‑MMC는 must‑link(ML)와 cannot‑link(CL) 제약을 손실 함수에 포함한다. 기본 목표는 마진을 최대화하면서 제약 위반을 최소화하는데, 제약마다 슬랙 변수 \(\eta_j\)를 두어 소프트 마진을 허용한다. 기존 SS‑MMC는 모든 제약을 동시에 만족하려 하지만, 트리 학습에서는 상위 노드에서 일부 제약만을 고려하고, 만족되지 않은 제약을 하위 노드로 전달한다 ‘완화된’ 접근법을 도입한다. 이는 제약 집합이 불균형하거나 충돌할 때도 안정적인 분할을 가능하게 한다. **4. 트리 학습 절차** 1) 전체 데이터 \(X\)와 제약 집합 \(L\)를 입력으로 받는다. 2) 각 트리마다 무작위로 특징 부분집합 \(K_{tl}\)를 선택하고, 해당 특징에 대해 현재 노드의 데이터와 제약을 추출한다. 3) 제약이 존재하면 SS‑MMC, 없으면 비제약 MMC를 수행해 가중치 \(w_{tl}\)를 얻는다. 4) 판별 함수 \(S_{tl}\) 로 데이터를 좌·우 자식으로 분할하고, 제약을 자식 노드에 재배치한다(제약이 분리된 경우 사라짐). 5) 최소 노드 크기 또는 제약 고갈 시 종료한다. 각 트리는 독립적으로 학습되므로 병렬화가 용이하고, 전체 복잡도는 \(O(T \cdot N \log N)\) 수준이다. **5. 거리 정의 및 추론** 트리 \(t\)에 대해 두 점 \(a,b\)가 처음으로 다른 자식으로 분리되는 가장 낮은 공통 조상 노드 \(H_{tl}(a,b)\) 를 찾는다. 해당 노드에 포함된 훈련 샘플 수 \(|H_{tl}(a,b)|\) 와 판별값을 이용해 거리 \(H_t(a,b)\) 를 0~1 로 정규화한다(식 (2)). 전체 메트릭은 모든 트리 거리의 평균 \(D(a,b)=\frac{1}{T}\sum_{t=1}^T H_t(a,b)\) 로 정의된다. 추론 단계는 각 트리를 따라 내려가며 판별값을 비교하는 O(tree depth) 연산만 필요하다. **6. 근사 최근접 이웃 검색** 학습된 메트릭 공간에서 대규모 이미지 검색을 위해, 저자들은 트리 기반 인덱스와 LSH와 유사한 해시 기법을 결합한 ANN 구조를 설계했다. 이는 기존 RFD가 갖던 ‘암묵적 변환’으로 인한 검색 비용 문제를 해결한다. **7. 실험 및 결과** - **데이터**: CIFAR‑10, SUN, ImageNet‑subset, UCI 여러 데이터셋. - **비교 대상**: LMNN, ITML, NCA, DML‑CNN, RFD 등 최신 메트릭 학습 방법. - **평가**: k‑NN 분류 정확도, 이미지 검색 MAP, 반지도 클러스터링 NMI. - **주요 결과**: HFD는 대부분의 경우 기존 방법보다 2~5% 높은 정확도/MAP를 기록했으며, 특히 제약에 노이즈가 포함된 실험에서 성능 저하가 최소화되었다. 또한, ANN 검색 시간은 기존 비선형 메트릭 대비 3배 이상 빠르게 수행되었다. **8. 논의 및 한계** - **강점**: 반지도 제약을 계층적으로 활용해 제약 충돌을 회피, 여러 약한 트리의 집합으로 과적합 방지, 효율적인 추론 및 대규모 검색 가능. - **제한점**: 트리 깊이와 특징 부분집합 크기 등 하이퍼파라미터 선택이 성능에 민감; 매우 고차원 희소 데이터에서는 특징 샘플링이 충분히 대표성을 확보하기 어려울 수 있다. **9. 결론** 본 논문은 반지도학습과 최대 마진 클러스터링을 결합한 새로운 비선형 메트릭 학습 프레임워크를 제시한다. 계층적 클러스터링을 기반으로 한 숲 구조는 강력하면서도 잡음에 견고한 거리 함수를 제공하며, 대규모 이미지 검색 및 반지도 클러스터링 등 실용적인 응용에 적합하다. 향후 연구에서는 자동 하이퍼파라미터 튜닝 및 더 복잡한 데이터 유형(예: 시계열, 그래프)으로의 확장을 목표로 할 수 있다.

반지도학습 기반 비선형 거리 학습: 최대 마진 클러스터 계층 숲

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기