다목적 강화학습의 공정성 확보를 위한 라우렌츠 우위 기반 확장형 알고리즘

다목적 강화학습의 공정성 확보를 위한 라우렌츠 우위 기반 확장형 알고리즘
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다목적 강화학습(MORL)에서 공정성을 보장하면서도 목표 차원이 많아지는 상황에 효율적으로 확장할 수 있는 방법을 제안한다. 라우렌츠 우위를 이용해 균형 잡힌 보상 분포를 갖는 정책 집합을 정의하고, λ‑라우렌츠 우위를 도입해 공정성 강도를 조절한다. 제안된 Lorenz Conditioned Networks(LCN) 알고리즘은 대규모 실제 교통 계획 환경에서 실험을 통해 기존 다목적 방법보다 높은 확장성과 공정성 성능을 입증한다.

상세 분석

이 연구는 다목적 강화학습(MORL) 분야에서 두 가지 핵심 문제—공정성 보장과 고차원 목표 공간의 확장성—를 동시에 해결하려는 시도이다. 기존 MORL은 파레토 우위에 기반해 전체 파레토 프론트를 근사하지만, 목표 차원이 늘어날수록 정책 집합이 기하급수적으로 증가해 학습·저장 비용이 급증한다. 특히 목표가 사회적 그룹의 효용을 나타낼 경우, 파레토 비우위 정책 중에서도 불공정한 보상 분배를 보이는 경우가 빈번히 발생한다. 이러한 배경에서 논문은 경제학에서 불평등을 측정하는 라우렌츠 곡선을 MORL에 적용한다. 라우렌츠 우위는 벡터의 원소를 오름차순 정렬한 뒤 누적합을 비교함으로써, 동일한 총 보상을 유지하면서도 더 균등하게 분배된 정책을 선호한다. 이는 Pigou‑Dalton 이전 원칙을 그대로 차용한 것으로, 고소득(또는 고보상) 요소에서 저소득 요소로 작은 양을 이전했을 때 전체 효용은 변하지 않지만 불평등 지표는 개선된다.

λ‑라우렌츠 우위는 라우렌츠와 파레토 우위 사이를 연속적으로 연결하는 파라미터 λ∈


댓글 및 학술 토론

Loading comments...

의견 남기기