전이 학습 기반 순서 회귀 모델 TOR
초록
본 논문은 라벨이 부족한 순서 회귀 문제에 대해, 라벨이 없는 데이터를 활용하는 전이 학습 프레임워크인 TOR(Transductive Ordinal Regression)를 제안한다. TOR는 라벨 추정과 순서 경계 학습을 동시에 수행하며, 손실 함수의 단조 감소를 보장하는 라벨 교환 메커니즘을 도입한다. 다양한 손실 함수(힌지, 로지스틱, 라플라시안 등)를 통합할 수 있고, 실험 결과 기존 감독 학습 및 전이 SVM 기반 방법보다 높은 정확도와 낮은 평균 절대 오차를 달성한다.
상세 분석
TOR는 기존 순서 회귀가 라벨된 데이터에 크게 의존하는 한계를 극복하기 위해, 라벨이 없는 데이터의 분포 정보를 활용한다. 핵심 아이디어는 입력 공간의 밀도(p(x))가 높은 영역을 경계가 통과하지 못하도록 하는 클러스터 가정과, 순서 제약(θ₁<θ₂<…<θ_{K‑1})을 동시에 만족시키는 최적화 문제를 정의하는 것이다. 목적 함수는 라벨된 데이터에 대한 손실 ℓ_yi와 라벨이 없는 데이터에 대한 손실 ℓ_yj를 각각 가중치 C₁, C₂로 조절하며, 정규화 항 τ(h,θ)로 모델 복잡도를 억제한다.
알고리즘은 크게 두 단계로 구성된다. 첫 번째 단계(Algorithm 2)에서는 감독 학습된 순서 회귀 모델을 이용해 무라벨 데이터에 초기 의사 라벨을 할당한다. 여기서는 라벨된 데이터의 클래스 비율을 기준으로 무라벨 데이터를 정렬하고, 비율에 맞게 라벨을 부여함으로써 초기 라벨 분포의 불균형을 방지한다. 두 번째 단계(Algorithm 1)에서는 현재 라벨링(y*)을 고정하고 최적의 (w,θ)를 구한 뒤, 라벨 교환 스킴을 적용한다. 교환 조건은 서로 다른 클래스에 속한 두 샘플(i, j)이 현재 손실을 감소시킬 수 있는 경우이며, 손실 감소량이 가장 큰 쌍을 선택한다. 이 과정을 라벨이 더 이상 교환되지 않을 때까지 반복하고, C₂를 점진적으로 증가시켜 무라벨 데이터의 영향력을 단계적으로 강화한다. 라벨 교환 과정은 목적 함수가 엄격히 감소함을 수학적으로 증명했으며, 이는 전이 학습의 수렴성을 보장한다.
TOR는 손실 함수의 선택에 따라 다양한 변형이 가능하다. 논문에서는 힌지 손실을 기반으로 한 구현을 제시했지만, 로지스틱 손실, 라플라시안 손실 등 다른 convex 손실도 동일한 프레임워크에 삽입할 수 있다. 실험에서는 네 개의 공개 벤치마크와 실제 감성 평점 데이터셋을 사용했으며, TOR는 기존 SVOR‑EXC, SVOR‑IMC, RED‑SVM, TSVM 등에 비해 평균 제로‑원 오차와 평균 절대 오차에서 유의미하게 우수한 성능을 보였다. 특히 라벨이 매우 적은 상황에서도 클러스터 가정을 활용해 경계가 고밀도 영역을 피하도록 학습함으로써 과적합을 방지하고 일반화 능력을 크게 향상시켰다.
전반적으로 TOR는 순서 회귀 문제에 전이 학습을 자연스럽게 통합한 최초의 시도이며, 라벨 부족 문제를 해결하면서도 기존 방법보다 효율적이고 견고한 성능을 제공한다는 점에서 학계·산업 모두에 큰 의미를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기