디스엔탱글링을 통한 k‑평균 클러스터링 성능 향상
초록
본 논문은 자동인코더의 잠재 표현을 소프트 네어스트 네이버 손실과 온도 annealing을 이용해 낮은 엔탱글먼트(높은 디스엔탱글링)를 유도하고, 이렇게 정제된 표현에 단순 k‑means를 적용함으로써 MNIST, Fashion‑MNIST, EMNIST Balanced에서 기존 딥 클러스터링 기법들을 능가하는 정확도와 NMI, ARI를 달성한 방법을 제시한다.
상세 분석
이 연구는 기존 딥 클러스터링(DEC, VaDE, ClusterGAN 등)이 복잡한 클러스터링 손실과 비클러스터링 손실을 동시에 최적화하는 구조와 달리, 자동인코더 하나만을 사용해 표현 학습을 수행한다는 점에서 설계가 단순하다. 핵심 아이디어는 ‘엔탱글먼트’를 정량화하는 소프트 네어스트 네이버 손실(soft nearest neighbor loss, SNNL)을 손실 함수에 추가하고, 온도 T를 훈련 진행에 따라 점진적으로 감소시키는 annealing 스케줄을 도입함으로써 같은 클래스(또는 구조) 내 샘플 간 거리를 상대적으로 축소하고, 서로 다른 클래스 간 거리는 확대하도록 유도한다. 온도 T는 (T = 1/(\eta + i)^{\gamma}) 형태로 정의되며, 논문에서는 (\eta=1, \gamma=0.55)를 사용해 초기에는 넓은 거리까지 손실에 기여하게 하고, 에폭이 진행될수록 작은 거리 중심으로 손실이 집중되게 설계하였다.
자동인코더는 입력을 0‑1 정규화한 뒤 이진 교차 엔트로피 손실을 재구성 손실로 채택했으며, 은닉층은 ReLU, 출력 및 잠재층은 시그모이드 활성화를 사용한다. 잠재 차원 c는 모든 실험에서 70으로 고정했으며, 이는 충분히 높은 차원에서 클래스 간 분리를 관찰할 수 있게 한다. 손실 함수는 (\mathcal{L}= \mathcal{L}{rec} + \alpha \cdot \sum_i \mathcal{L}{sn}(f_i(x), y)) 형태이며, (\alpha)는 100으로 크게 설정해 디스엔탱글링 효과를 강조한다.
학습 과정에서 라벨이 있는 경우와 없는 경우 두 가지 SNNL 변형을 실험했으며, 라벨이 없는 경우에도 동일한 확률적 샘플링을 적용해 ‘비지도’ SNNL을 정의하였다. 실험에서는 ‘arg min’ 전략을 사용해 가장 낮은 SNNL을 보이는 은닉층을 선택함으로써 손실 계산의 안정성을 확보했다.
학습이 완료된 후, 잠재 표현에 대해 k‑means++ 초기화를 사용해 k‑means 클러스터링을 9번 수행하고, 90번째 반복 결과를 최종 성능 지표로 기록하였다. 평가 지표는 클러스터링 정확도(ACC), 정규화 상호정보(NMI), 조정 랜드 지수(ARI), 실루엣 점수, 평균 제곱 오차 등 여섯 가지를 사용했다.
결과적으로 MNIST에서는 96.2 %의 ACC, Fashion‑MNIST에서는 85.6 %, EMNIST Balanced에서는 79.2 %의 ACC를 달성했으며, 이는 동일 데이터셋에서 DEC(84.3 %), VaDE(94.5 %), ClusterGAN(95 %) 등 기존 딥 클러스터링 모델보다 우수하거나 동등한 수준이다. 특히 온도 annealing을 적용한 SNNL‑5/6/7/8 변형이 고정 온도 변형보다 빠른 초기 디스엔탱글링을 보이며, 비지도 설정에서도 경쟁력 있는 성능을 유지한다.
이 접근법의 장점은 (1) 복잡한 클러스터링 네트워크 없이 자동인코더와 손실 설계만으로 높은 성능을 얻는다, (2) 온도 annealing을 통한 학습 초기 단계에서의 빠른 클래스 분리가 가능하다, (3) 라벨이 제한된 상황에서도 비지도 SNNL을 활용해 유사한 효과를 얻을 수 있다. 한편 제한점으로는 (가) 잠재 차원 c와 (\alpha) 같은 하이퍼파라미터 선택이 경험적이며, (나) 이미지 외의 고차원 비정형 데이터에 대한 일반화 검증이 부족하다는 점을 들 수 있다. 향후 연구에서는 온도 스케줄을 자동화하고, 컨볼루션 기반 인코더와 결합해 복잡한 시각 데이터에 적용하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기