협동 학습 기반 온라인 구조 예측

초록

Coactive Learning은 시스템과 사용자가 공동으로 최대 효용을 목표로 상호작용하는 모델이다. 시스템은 컨텍스트에 따라 구조화된 객체(예: 검색 결과)를 예측하고, 사용자는 최적은 아니지만 약간 개선된 객체를 피드백으로 제공한다. 이 피드백은 클릭 로그와 같은 관찰 가능한 행동에서 추출될 수 있다. 저자는 순위와 영화 추천 실험을 통해, 실제 효용 값을 알 수 없음에도 평균 regret이 O(1/√T)인 효율적인 온라인 학습 알고리즘을 제시한다.

상세 분석

본 논문은 기존 온라인 학습이 요구하는 명시적 손실(또는 보상) 신호를 배제하고, 사용자가 제공하는 “약간 개선된” 피드백만으로도 학습이 가능함을 증명한다. 핵심 가정은 사용자가 제시한 피드백 객체 ŷ가 현재 시스템이 제안한 객체 ŷ보다 실제 효용이 더 높다는 점이다. 이를 수학적으로는 U(x, ŷ) ≥ U(x, ŷ) + γ, γ > 0인 마진 조건으로 표현한다. 이러한 약한 정보만으로도 구조화된 출력 공간(예: 순위, 트리, 라벨 시퀀스)에서 퍼셉트론 스타일의 업데이트를 수행할 수 있다.

알고리즘은 두 가지 변형을 제시한다. 첫 번째는 Coactive Perceptron으로, 매 단계마다 피드백 ŷ와 현재 예측 ŷ 사이의 차이를 특징 벡터 차이 φ(x, ŷ) − φ(x, ŷ)로 변환해 가중치를 선형적으로 조정한다. 두 번째는 정규화와 학습률 스케줄링을 도입한 COCOA(Confidence‑Weighted Coactive Algorithm)로, 불확실성을 고려해 보다 안정적인 수렴을 보장한다.

이론적 분석에서는 평균 regret R_T = (1/T)∑_{t=1}^T