데이터 오염에 강인한 오프라인 다중에이전트 강화학습: 인간 피드백 기반 견고한 균형 학습

본 논문은 인간 피드백을 기반으로 한 오프라인 다중에이전트 강화학습(MARLHF)에서 데이터 오염에 대한 견고성을 최초로 이론적으로 분석한다. 연구 배경으로는 RLHF가 대형 언어 모델 정밀조정에 널리 사용되고 있으나, 기존 연구는 대부분 단일 에이전트에 국한되어 있고, 데이터 포이즈닝 공격에 취약하다는 점을 지적한다. 다중에이전트 환경에서는 각 에이전트가 독립적인 선호를 갖는 n‑차원 이진 라벨 벡터 o가 제공되며, 이는 Bradley‑Terry 모델을 통해 보상 차이를 추정한다. 논문은 두 가지 주요 가정을 설정한다. 첫 번째는 ‘Uniform Coverage’로, 모든 정책 방향이 충분히 샘플링된 상황을 의미한다. 이 경우, 데이터의 특성 공분산 행렬 Σ\_{µ}와 차이 공분산 Σ\_{−µ,µ′}가 각각 ξ_P·I, ξ_R·H·I 이상이라는 정규성을 만족한다. 이러한 가정 하에, 저자들은 TrimmedMLE(Trimmed Maximum Likelihood Estimation) 기법을 이용해 ε‑오염된 데이터에서도 각 에이전트의 보상 파라미터 θ_i를 O(ε^{1‑o(1)}) 정확도로 복원한다. 복원된 파라미터를 기반으로 낙관적(upper) 및 비관적(lower) 보상 함수를 정의하고, 오프라인 가치 함수 추정 단계에서 모든 정책 π∈Π\_{PP}에 대해 Q‑함수와 V‑함수를 계산한다. 이후 각 정책에 대한 Nash 갭을 추정하고, 최소 갭을 갖는 정책을 선택한다. 이 알고리즘은 계산적으로는 비현실적이지만, 이론적으로는 Nash 갭이 O(n·ε^{1‑o(1)} + n/√m) 로 수렴함을 증명한다. 두 번째는 ‘Unilateral Coverage’로, 데이터가 오직 실제 Nash 균형 정책 π\*와 각 에이전트가 단독으로 바꾸는 편차 정책만을 포함한다는 가정이다. 여기서는 전체 정책에 대한 가치 추정이 불가능하므로, 저자들은 ‘편향된 그라디언트’를 활용한다. 구체적으로, 현재 후보 정책 π에 대해 보상 파라미터 집합 Θ\_{Unil} 내에서 최악의 보상을 찾고, 그 보상에 대한 Nash 갭을 최소화하는 방향으로 투사 그라디언트 상승(PGA)을 T₁ 단계 수행한다. 이때 사용되는 그라디언트는 특성 차이 ϕ(τ)−ϕ(τ′)의 공분산 행렬 Σ\_{−µ,µ′}를 통해 근사한다. 최종적으로, 이 절차와 동일한 보상 경계 설정을 결합하면 Nash 갭이 O(n·√ε + n/√m + n/√T₁) 로 제한된다. NE(내시 균형) 계산이 일반 합 게임에서 NP‑hard임을 인식하고, 논문은 해결책을 CCE(거친 상관 균형)로 완화한다. CCE는 각 단계 게임을 볼록‑오목 구조의 쌍극점 문제로 변환할 수 있게 하며, Optimistic Hedge 알고리즘을 적용해 quasi‑polynomial 시간 내에 근사 CCE를 학습한다. 이 과정에서도 동일한 편향된 그라디언트와 보상 경계가 사용되며, 최종 CCE 갭은 O(n·√ε + n/√m + n/√T₁ + n/T₂) 로 보장된다. 이론적 기여 외에도 논문은 여러 제한점을 인정한다. 선형 마코프 게임 가정은 복잡한 비선형 환경에 적용하기 어렵고, 데이터 커버리지를 나타내는 ξ_R, ξ_P, C_R, C_P 등의 상수는 실제 데이터에서 측정이 까다롭다. 또한, 제시된 알고리즘은 전체 정책 집합을 탐색하거나 대규모 그라디언트 상승을 수행해야 하므로 계산 비용이 매우 높다. 실험적 검증이 전혀 포함되지 않아, 제안된 방법이 실제 인간 피드백 데이터와 복잡한 다중에이전트 시스템에 얼마나 적용 가능한지는 아직 미확인이다. 향후 연구 방향으로는 (1) 비선형 함수 근사와 딥러닝 기반 특성 추출을 통한 일반화, (2) 더 약한 커버리지 가정(예: 부분적인 상태‑액션 커버리지) 하에서의 견고성 분석, (3) 실제 인간 피드백을 수집한 대규모 MARLHF 벤치마크 구축 및 실험 검증, (4) 다른 균형 개념(예: Coarse Correlated Equilibrium 외에 Correlated Equilibrium, Regret Matching 등)과의 비교, (5) 온라인 설정에서의 적응형 견고성 메커니즘 개발 등을 제시한다.

데이터 오염에 강인한 오프라인 다중에이전트 강화학습: 인간 피드백 기반 견고한 균형 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기