재귀적 K평균을 활용한 반지도 학습 텍스트 분류

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 라벨이 있는 문서와 라벨이 없는 문서를 동시에 포함하는 데이터셋에 대해, K‑means 군집화를 재귀적으로 적용하여 각 군집이 하나의 클래스만을 포함하도록 분할한다. 최종 군집의 중심을 대표 벡터로 삼고, 최근접 이웃 규칙을 이용해 새로운 문서를 분류한다. 20Newsgroups 데이터셋을 이용한 실험에서 기존 반지도 학습 모델보다 높은 정확도와 F1 점수를 달성하였다.

상세 분석

이 연구는 텍스트 분류 문제에 반지도 학습을 적용하는 새로운 프레임워크를 제안한다. 핵심 아이디어는 “divide and conquer” 전략으로, 라벨이 있는 소수의 문서와 라벨이 없는 다수의 문서를 하나의 집합으로 만든 뒤, K‑means 알고리즘을 재귀적으로 실행한다는 점이다. 초기 단계에서 K값을 전체 클래스 수와 동일하게 설정하고, 각 클러스터에 포함된 라벨 문서가 모두 동일한 클래스에 속하면 해당 클러스터를 종료한다. 그렇지 않은 경우, 해당 클러스터를 다시 K‑means로 분할한다. 이 과정을 모든 클러스터가 순수한 라벨을 가질 때까지 반복함으로써, 라벨이 없는 문서는 자동으로 가장 가까운 라벨 클러스터에 할당되는 형태가 된다.

재귀적 군집화 과정에서 중요한 두 가지 매개변수가 있다. 첫째는 초기 K값 선택이다. 논문에서는 전체 클래스 수와 동일하게 설정했지만, 데이터의 불균형 정도에 따라 가변 K값을 도입할 여지가 있다. 둘째는 군집 종료 기준이다. 현재는 “클러스터 내 라벨이 하나뿐”이라는 엄격한 기준을 사용했는데, 이 기준을 완화하여 다중 라벨이 섞인 경우에도 일정 비율 이상이 동일 라벨이면 종료하도록 하면 군집 수를 줄이고 연산 비용을 절감할 수 있다.

텍스트 표현으로는 TF‑IDF 가중치를 사용했으며, 차원 축소를 위해 일반적인 L2 정규화만 적용하였다. 여기서 고차원 희소 벡터가 K‑means의 거리 계산에 미치는 영향을 고려하면, 차원 축소 기법(예: LSA, Word2Vec, BERT 임베딩)과 결합했을 때 성능 향상이 기대된다. 또한, 군집 중심을 대표 벡터로 삼는 대신, 각 클러스터 내부에서 라벨 문서들의 평균을 별도로 저장하고, 라벨이 없는 문서는 이 평균과의 거리를 기준으로 분류하면 보다 정교한 경계 설정이 가능할 것이다.

실험에서는 20Newsgroups 데이터셋을 10% 라벨링 비율로 설정하고, 비교 대상으로는 라벨 전파(Label Propagation), 라벨 전파 기반 SVM, 그리고 최근의 그래프 신경망 기반 반지도 학습 모델을 사용하였다. 제안 방법은 평균 정확도 85.3%를 기록했으며, 특히 소수 클래스에서의 재현율이 크게 향상되었다. 이는 재귀적 K‑means가 클래스 간 경계가 명확하지 않은 영역을 효과적으로 분할하고, 라벨이 없는 데이터에 대한 신뢰도 높은 가짜 라벨을 부여하기 때문이다.

하지만 몇 가지 한계점도 존재한다. 첫째, K‑means 자체가 구형 군집을 가정하기 때문에, 텍스트 데이터가 비구형 구조를 가질 경우 군집 품질이 저하될 수 있다. 둘째, 재귀적 분할 과정에서 클러스터 수가 급격히 증가하면 메모리와 시간 복잡도가 크게 늘어난다. 논문에서는 실험 규모가 제한적이었으나, 대규모 코퍼스(수십만 문서)에서는 효율적인 구현이 필요하다. 셋째, 라벨이 전혀 없는 클러스터가 남을 경우, 해당 클러스터는 어떻게 처리할지에 대한 명시적인 전략이 부족하다. 향후 연구에서는 클러스터 품질을 평가하는 내부 지표(실루엣 점수 등)를 도입하거나, 비지도 사전 학습 모델과 결합해 초기 군집화를 보강하는 방안을 모색할 수 있다.

전반적으로 이 논문은 간단하면서도 효과적인 반지도 학습 파이프라인을 제시한다. 기존의 그래프 기반 전파 방법이 복잡한 그래프 구축과 파라미터 튜닝에 의존하는 반면, 재귀적 K‑means는 구현이 직관적이며, 라벨이 적은 상황에서도 비교적 높은 분류 성능을 달성한다. 향후 연구에서는 군집화 알고리즘을 K‑medoids, DBSCAN 등으로 교체하거나, 딥러닝 임베딩과 결합해 고차원 텍스트 공간에서의 군집 품질을 개선하는 방향이 유망하다.

재귀적 K평균을 활용한 반지도 학습 텍스트 분류

초록

상세 분석

댓글 및 학술 토론

의견 남기기