제약 기반 그룹 상대 정책 최적화
초록
본 논문은 비평가 없이 정책을 학습하는 GRPO 프레임워크에 라그랑주 기반 제약 처리를 결합한 Constrained GRPO를 제안한다. 비용을 지시자 함수로 정의하고, 라그랑주 승수를 학습해 행동 비율을 직접 제어한다. 기존의 “보상 스칼라화 후 표준화” 방식은 그룹 내 표준편차 차이로 인해 라그랑주 신호가 왜곡돼 제약이 제대로 적용되지 않음을 이론적으로 증명하고, 각 구성요소를 별도로 표준화한 뒤 가중합하는 “스칼라화된 어드밴티지” 방식을 제시한다. 격자 세계와 로봇 시뮬레이션 실험을 통해 제안 방법이 제약 만족도와 작업 성공률을 동시에 향상시킴을 확인한다.
상세 분석
GRPO는 동일한 질의에 대해 여러 샘플을 생성하고, 각 샘플의 반환값을 그룹 평균과 표준편차로 정규화함으로써 비평가(critic) 없이 어드밴티지를 추정한다. 이때 반환값이 다차원(주 보상 + K개의 비용)이라면 두 가지 전처리 방식이 가능하다. 첫 번째는 라그랑주 승수 λ를 이용해 보상과 비용을 선형 결합한 단일 스칼라 R_c를 만든 뒤, 이를 그룹 내에서 표준화하는 “Scalarized Rewards” 방식이다. 저자는 이 방식이 내부적으로 각 구성요소의 분산과 공분산에 비례하는 가중치를 자동으로 부여한다는 수식을 제시한다(정리 4.1). 즉, 표준편차가 큰 비용 항목은 상대적으로 작게 스케일링되고, 상관관계가 높은 항목들은 서로 보완적으로 작용해 라그랑주 승수의 의미가 흐려진다. 결과적으로 λ가 증가해도 실제 제약 위반에 대한 페널티가 충분히 반영되지 않아, 제약이 제대로 강제되지 않는다.
이를 해결하기 위해 저자는 “Scalarized Advantages” 접근을 제안한다. 구체적으로, 각 구성요소(보상 및 개별 비용)를 그룹 내에서 독립적으로 평균·표준편차로 정규화한 뒤, 정규화된 어드밴티지 (\tilde A_k)에 라그랑주 승수 λ_k를 곱해 합산한다: (A^{\text{scalar}} = \lambda_R \tilde A_R - \sum_{k=1}^K \lambda_k \tilde A_{C_k}). 이렇게 하면 각 항목의 스케일이 동일하게 맞춰지므로 λ_k가 직접적인 가중치 역할을 수행한다. 수학적 증명에서는 정규화 전후의 공분산 행렬이 단위 행렬이 되므로, 라그랑주 승수와 어드밴티지 사이의 선형 관계가 보존됨을 보인다.
실험에서는 5×5 격자 세계에서 “방문 제한”과 “에너지 소비” 두 제약을 설정하고, Scalarized Rewards와 Scalarized Advantages를 비교한다. 전자는 제약 위반률이 크게 변동하고, 라그랑주 승수 업데이트가 불안정해지는 반면, 후자는 제약 위반률이 목표값에 수렴하고 학습 곡선이 매끄럽다. 로봇 팔 조작 및 자율 주행 시뮬레이션에서도 동일한 경향이 관찰되어, 제안된 방법이 실제 임베디드 AI 시스템에 적용 가능함을 입증한다.
핵심 인사이트는 (1) GRPO의 그룹 정규화가 다차원 보상 구조에서 은닉된 스케일 변형을 일으킬 수 있다는 점, (2) 라그랑주 기반 제약 최적화에서는 어드밴티지 자체를 정규화해야 라그랑주 승수의 의미가 유지된다는 점, (3) 이러한 설계 변경이 제약 만족도와 전체 성능을 동시에 개선한다는 실증적 증거이다.
댓글 및 학술 토론
Loading comments...
의견 남기기