지속 가능한 알고리즘 회귀를 위한 강화학습 프레임워크
초록
본 논문은 경쟁적·자원 제한 환경에서 추천이 지원자 풀에 미치는 피드백 효과를 고려한 시간 인식형 알고리즘 회귀(framework)를 제안한다. 강화학습 에이전트를 활용해 추천 정책을 학습하고, 제시된 대안이 일정 시간(T) 동안 유효하도록 보장한다. 실험 결과, 제안 방법이 기존 최첨단 기법보다 실현 가능성(feasibility)과 장기 유효성(validity) 사이의 균형을 크게 개선함을 보인다.
상세 분석
이 연구는 기존 알고리즘 회귀 연구가 모델 업데이트에 대한 강건성에 집중해 왔지만, 지원자들이 실제로 추천을 실행하고 재신청하는 과정에서 발생하는 내생적 피드백을 무시한다는 한계를 정확히 지적한다. 저자들은 이러한 동적 상호작용을 포괄적으로 모델링하기 위해 부분관측 마코프 결정 과정(POMDP)으로 문제를 재구성한다. 상태 sₜ는 현재 시스템에 존재하는 모든 지원자의 특성 행렬, 식별자, 그리고 모델 점수를 포함하는 고차원 연속 공간이며, 행동 aₜ는 거부된 지원자 각각에 대한 반사실(counterfactual) 특성 벡터 집합이다. 전이 P(sₜ₊₁|sₜ,aₜ)는 세 단계로 이루어지는데, (1) 합격자는 시스템을 영구 탈퇴, (2) 거부자는 추천에 따라 행동 성공 확률과 이탈 확률에 따라 특성을 수정하거나 포기, (3) 새로운 지원자와 재신청자들이 새로운 라운드에 참여한다. 관측 oₜ는 현재 신청자들의 특성만을 제공하므로 에이전트는 부분관측 상황에서 정책을 학습해야 한다.
보상 설계는 세 축을 동시에 최적화한다. 첫째, Gini 지수를 최소화해 거부된 지원자들 사이의 목표 점수(gₜ) 편차를 줄여 형평성을 확보한다. 둘째, 확장된 Recourse Reliability(RRᵀₜ)를 통해 T‑step 내에 추천을 성공적으로 구현하고 합격한 비율을 높인다. 셋째, Recourse Feasibility(RFᵀₜ)를 도입해 과도히 어려운 변화를 제안하는 트리비얼 솔루션을 억제한다. 이러한 복합 보상은 정책이 “실현 가능하면서도 내구성 있는” 추천을 제공하도록 유도한다.
알고리즘적으로는 연속·가변 차원의 행동 공간을 다루기 위해 정책 신경망에 액터‑크리틱 구조를 적용하고, 부분관측을 보정하기 위해 리커런트 레이어(LSTM) 혹은 트랜스포머 기반 인코더를 사용한다. 또한, 후보자 이탈 및 특성 수정 성공 확률을 모델링한 베이지안 파라미터(dᵢ, β)를 환경 파라미터로 포함시켜, 학습 단계에서 다양한 난이도와 지연을 시뮬레이션한다. 실험에서는 합성 데이터와 복잡한 시뮬레이션 환경을 활용해 기존 최첨단 기법(예: DiCE, 최소-최대 견고 회귀)과 비교했으며, 제안 방법이 특히 높은 경쟁도와 제한된 자원 상황에서 RRᵀ와 RFᵀ를 크게 향상시켰다. 결과는 정책이 장기적인 유효성을 보장하면서도 개별 지원자에게 과도한 비용을 부과하지 않음을 입증한다.
이 논문의 주요 기여는 (1) 경쟁·자원 제한 환경을 정량화한 시간 인식형 회귀 프레임워크, (2) 내생적 피드백을 포함한 POMDP 기반 강화학습 알고리즘, (3) 형평성·유효성·실현 가능성을 동시에 고려한 복합 보상 설계, (4) 다양한 시뮬레이션을 통한 실증적 우수성 검증이다. 향후 연구는 실제 금융·채용 데이터에 적용하고, 정책 투명성 및 규제 준수 측면에서 설명 가능성을 강화하는 방향으로 확장될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기