다른 샘플링 분포를 고려한 반지도 학습 로지스틱 판별

본 논문은 라벨 데이터와 라벨이 없는 데이터가 서로 다른 확률밀도 함수를 가질 때, 공변량 이동(covariate shift) 기법을 적용한 반지도 로지스틱 회귀 모델을 제안한다. EM 알고리즘과 정규화를 결합해 파라미터를 추정하고, 정보이론 기반의 일반화 정보 기준(GIC)으로 튜닝 파라미터를 선택한다. 시뮬레이션과 실제 데이터 실험을 통해 제안 방법이 기존 반지도 학습 기법보다 우수함을 입증한다.

저자: Shuichi Kawano

논문은 라벨이 있는 데이터와 라벨이 없는 데이터가 서로 다른 확률밀도 함수를 가진 상황을 전제로, 이러한 차이를 반영한 반지도 학습 모델을 개발한다. 서론에서는 현대 데이터 과학에서 라벨링 비용이 높아 라벨이 적고 비라벨 데이터가 풍부한 경우가 많으며, 기존 반지도 학습 방법들은 라벨과 비라벨 데이터가 동일한 분포를 따른다고 가정하는 한계가 있음을 지적한다. 이를 극복하기 위해 공변량 이동(covariate shift) 이론을 도입한다. 2절에서는 모델 수식을 상세히 전개한다. 먼저 전통적인 선형 로지스틱 회귀 모델을 복습하고, 라벨 데이터만을 이용해 파라미터 w를 최대우도법으로 추정한다. 이어서 라벨이 없는 데이터를 포함한 확장 로그우도(식 6)를 소개하고, 기존 연구(Amini & Gallinari, 2002)에서 EM 알고리즘을 이용해 잠재 변수 t_α를 추정하는 방식을 설명한다. 그러나 이때 라벨과 비라벨 데이터가 동일한 밀도를 가진다는 가정이 남아 있다. 이를 보완하기 위해 저자는 라벨과 비라벨 데이터의 밀도 비(q_unlabel/q_label)를 가중치로 활용한 새로운 로그우도 함수(식 7)를 제안한다. γ₁, γ₂∈

다른 샘플링 분포를 고려한 반지도 학습 로지스틱 판별

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기