위치 의존성을 활용한 랜덤 포레스트 기반 메트릭 학습
초록
본 논문은 단일 메트릭이면서도 입력 공간 전역에서 암묵적으로 거리 함수를 변형시키는 방법을 제안한다. 랜덤 포레스트 분류기를 거리 함수의 기반으로 사용해 절대적인 쌍(pair) 위치와 전통적인 상대적 위치 정보를 동시에 활용한다. 실험 결과, 제안 방법은 최신 글로벌 및 다중 메트릭 기법들을 정확도 면에서 모두 앞서며, 다중 메트릭 방법보다 최대 16배 빠른 연산 속도를 보인다.
상세 분석
이 연구는 메트릭 학습 분야에서 “단일 메트릭이면서도 공간에 따라 적응하는” 패러다임을 제시한다는 점에서 혁신적이다. 기존 대부분의 메트릭 학습 기법은 Mahalanobis 거리 형태의 선형 변환을 학습한다. 이는 전역적인 변환이므로 데이터 분포가 이질적일 경우 표현력이 제한된다. 이를 보완하기 위해 다중 메트릭 방법들이 제안되었지만, 지역별 메트릭을 별도로 학습·저장해야 하므로 메모리와 연산 비용이 급증한다. 논문은 이러한 딜레마를 랜덤 포레스트(Random Forest, RF)를 거리 함수의 핵심 구성요소로 도입함으로써 해결한다. RF는 다수의 결정 트리를 앙상블하여 비선형 경계를 모델링하므로, 입력 공간의 복잡한 구조를 자연스럽게 포착한다. 특히, 각 트리의 분할 기준에 절대적인 쌍(pair) 위치 정보를 포함시켜 “절대 위치 의존성”을 학습한다. 전통적인 메트릭 학습이 상대적 거리(예: 두 샘플 사이의 차이)만을 이용하는 반면, 여기서는 (x_i, x_j)라는 두 점의 좌표 자체를 특징 벡터로 변환해 RF에 입력한다. 이렇게 하면 동일한 상대 거리라도 서로 다른 절대 위치에 있을 경우 다른 판단을 내릴 수 있어, 공간 전역에서 메트릭이 자동으로 변형되는 효과를 얻는다.
학습 단계에서는 라벨이 동일한 쌍을 ‘유사’, 다른 라벨을 ‘비유사’로 라벨링하고, RF를 이진 분류기로 학습한다. 거리 함수는 RF가 출력하는 클래스 확률(또는 투표 수)을 역수 혹은 로그 변환해 정의한다. 따라서 거리 계산은 단순히 트리를 통과시키는 O(log N) 연산으로 수행되며, 기존 다중 메트릭 방법이 요구하는 복수의 매트릭스 곱셈보다 훨씬 효율적이다. 또한, 트리 깊이와 수를 조절함으로써 정확도와 속도 사이의 트레이드오프를 유연하게 조정할 수 있다.
실험에서는 UCI, 이미지, 텍스트 등 12개 데이터셋에 대해 k-NN 분류 정확도와 k-최근접 이웃 검색 속도를 평가한다. 제안 방법은 글로벌 LMNN, ITML, 그리고 다중 메트릭 LMNN‑M, 지역 기반 R‑MLKR 등을 모두 능가했으며, 특히 다중 메트릭 방법 대비 평균 8배, 최악의 경우 16배 빠른 추론 시간을 기록했다. 이는 RF 기반 거리 함수가 사전 계산 없이도 실시간으로 쌍별 거리를 제공할 수 있기 때문이다.
한계점으로는 트리 기반 모델이 고차원 희소 데이터(예: 대규모 텍스트 피처)에서 과적합 위험이 존재한다는 점과, 거리 함수가 확률적이므로 동일 쌍에 대해 실행마다 약간의 변동이 있을 수 있다는 점을 들 수 있다. 또한, 트리 구조가 비선형이지만 완전한 연속 미분 가능성을 제공하지 않으므로, 일부 최적화 기반 응용(예: 딥러닝과의 연동)에는 제약이 있다. 향후 연구에서는 트리 앙상블을 신경망과 하이브리드하거나, 샘플링 전략을 개선해 메모리 사용을 최소화하는 방향이 제시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기