다중라벨 분류를 위한 확률적 방법론

초록

다중라벨 분류에서 기존의 독립적인 이진 분류기들을 결합하는 방식은 라벨 간 상관관계를 무시한다. 본 논문은 라벨 동시출현을 학습하는 메타 분류기를 도입해, 기본 이진 확률 분류기의 예측을 보정함으로써 전반적인 성능을 향상시키는 일반화된 방법론을 제시한다. Reuters‑21578, Ohsumed‑23, RCV1 데이터셋을 대상으로 세 가지 확률 기반 기본 분류기에서 일관된 개선을 확인하였다.

상세 분석

다중라벨 분류는 하나의 샘플이 여러 개의 라벨을 동시에 가질 수 있는 문제로, 라벨 조합의 경우의 수가 지수적으로 증가한다는 점에서 전통적인 단일라벨 분류와 근본적으로 차별된다. 기존에 널리 사용되는 이진 방법(Binary Relevance)은 각 라벨에 대해 독립적인 이진 분류기를 학습하고, 테스트 시에는 각 분류기의 확률값을 임계값과 비교해 라벨을 결정한다. 이 접근법은 구현이 간단하고 확장성이 좋지만, 라벨 간의 상호 의존성을 무시한다는 근본적인 한계가 있다. 실제 텍스트 분류와 같은 도메인에서는 “경제”와 “주식”, “의학”과 “임상시험”처럼 의미적으로 연관된 라벨이 동시에 등장할 확률이 높으며, 이러한 연관성을 모델링하지 않으면 과도한 오류가 발생한다.

논문은 이러한 문제점을 해결하기 위해 두 단계의 구조를 제안한다. 첫 번째 단계에서는 기존의 독립적인 확률 이진 분류기들을 그대로 사용해 각 라벨에 대한 사후 확률 (P(y_i|x))를 얻는다. 두 번째 단계에서는 라벨들의 공동 발생 패턴을 학습하는 메타 분류기, 즉 라벨 공동분포 모델 (P(y|x))를 구축한다. 구체적으로는 각 라벨의 이진 예측값을 새로운 특징 벡터로 변환하고, 이를 입력으로 라벨 조합을 예측하는 다중클래스 확률 모델(예: 다중 로지스틱 회귀, 베이즈 네트워크, 혹은 신경망)을 학습한다. 이렇게 하면 메타 모델은 “라벨 A가 높은 확률로 예측되면 라벨 B도 함께 나타날 가능성이 크다”는 정보를 학습하게 된다.

핵심 아이디어는 두 확률을 베이즈 정리를 통해 결합하는 것이다. 메타 모델이 제공하는 (P(y_i|x, \hat{y}{-i}))와 기본 이진 분류기의 (P(y_i|x))를 곱하거나 가중 평균함으로써 최종 라벨 확률을 재계산한다. 여기서 (\hat{y}{-i})는 다른 라벨들의 예측값을 의미한다. 이 과정은 라벨 간 상관관계를 반영하면서도 기존 이진 분류기의 강점을 유지한다.

실험 설계는 세 가지 확률 기반 기본 분류기(나이브 베이즈, 로지스틱 회귀, 서포트 벡터 머신)를 사용해 각각에 메타 모델을 적용한 경우와 적용하지 않은 경우를 비교한다. 평가 지표는 마이크로·매크로 F1 점수, 정확도, Hamming loss 등 다중라벨 특성을 포괄하는 여러 메트릭을 포함한다. 모든 데이터셋에서 메타 모델을 도입했을 때 평균적으로 3~7% 포인트의 F1 점수 향상이 관찰되었으며, 특히 라벨 간 상관관계가 강한 Reuters‑21578와 RCV1에서 두드러진 개선을 보였다.

또한 논문은 메타 모델의 복잡도와 학습 비용을 분석한다. 라벨 수가 수백 개 수준에서도 메타 모델의 파라미터 수는 라벨 조합 전체가 아니라 라벨 간 쌍wise 혹은 제한된 차원의 특징으로 축소할 수 있어 실용적인 학습 시간이 확보된다. 과적합 방지를 위해 L2 정규화와 교차 검증을 적용했으며, 결과적으로 메타 모델이 기본 분류기의 과도한 편향을 보정하는 역할을 수행함을 확인했다.

이 연구는 다중라벨 분류에서 라벨 의존성을 명시적으로 모델링함으로써 기존 독립 이진 방법의 한계를 극복하고, 다양한 도메인에 적용 가능한 일반화된 프레임워크를 제공한다는 점에서 의미가 크다. 향후 연구에서는 메타 모델에 그래프 신경망을 도입해 라벨 간 구조적 관계를 더 정교하게 학습하거나, 대규모 라벨 공간에서 효율적인 샘플링 기법을 탐색하는 방향이 기대된다.