다중 에이전트 상호작용을 위한 책임 할당 학습 제어 장벽 함수와 미분 가능한 최적화
초록
본 논문은 다중 에이전트 시스템에서 각 에이전트가 안전을 위해 자신의 원하는 제어 입력을 얼마나 양보하는지를 “책임 할당”이라는 개념으로 정량화한다. 제어 장벽 함수(CBF)를 기반으로 한 안전 필터를 설계하고, 책임 비율 γ 를 변수로 두어 각 에이전트의 편차 비용에 가중치를 부여한다. 미분 가능한 최적화와 이중 최적화 기법을 이용해 실제 인간·자동차 데이터로부터 γ 를 학습함으로써, 책임 배분이 어떻게 환경·상황에 따라 변하는지 해석 가능한 형태로 추정한다. 합성 실험과 실제 교통 데이터 실험을 통해 제안 방법이 정확하고 해석 가능함을 입증한다.
상세 분석
이 연구는 다중 에이전트 상호작용을 “책임”이라는 새로운 관점에서 모델링한다는 점에서 독창적이다. 기존의 사회적 가치 지향(SVO)이나 ORCA 기반 방법은 책임을 정량화하거나 학습 가능한 형태로 표현하는 데 한계가 있었는데, 본 논문은 이를 CBF와 결합해 수학적으로 엄격하면서도 학습 가능한 프레임워크를 제시한다. 핵심 아이디어는 각 에이전트가 가지고 있는 ‘원하는 제어 입력’ u_des 를 CBF 안전 제약 ∇b(x)·f(x,u)+α(b(x))≥0 에 투영(projection)하는 최적화 문제를 정의하고, 이때 각 에이전트의 편차 비용 ‖u_i−u_des_i‖² 에 책임 가중치 γ_i 를 곱해 비용을 조정한다. γ 벡터는 확률적 의미(합이 1, 0≤γ_i≤1)를 갖도록 softmax를 통해 파라미터 e_γ 로부터 변환한다.
문제 3은 QP 형태이며, 제어가 선형(또는 제어 친화적)일 경우 효율적인 해가 보장된다. 슬랙 변수 ε 와 정규화 항 β₁,β₂ 를 도입해 제약이 불가능한 상황에서도 근사해를 얻을 수 있다. 책임 할당을 추정하는 핵심은 이중 최적화(바이레벨) 구조이다. 외부 최적화는 γ를 조정해 데이터와의 차이 Δ(u_data, u_proj) 를 최소화하고, 내부 최적화는 각 데이터 포인트마다 Problem 3을 풀어 ũ (예측된 안전 제어)를 얻는다.
미분 가능한 최적화 도구(예: cvxpylayers, qpth, JAX) 덕분에 내부 QP를 자동 미분 가능하게 만들어, γ에 대한 그래디언트를 직접 계산한다. 이렇게 하면 대규모 데이터셋에 대해 배치 처리와 GPU 가속이 가능해 학습 효율이 크게 향상된다. 또한, 대칭 책임(symmetric responsibility) 개념을 도입해 γ_i=γ_j 인 경우 파라미터 수를 절감하고 데이터 효율성을 높인다.
실험에서는 1차원 2-agent 단순 모델과 고차원 차량 시뮬레이션, 그리고 실제 도로에서 수집한 인간 운전자 데이터(차선 교체, 추월 상황)를 사용한다. 합성 실험에서는 γ가 정확히 복원되는 것을 확인했으며, 실제 데이터에서는 앞차가 급정거할 때 뒤차가 더 큰 γ를 갖는 등 인간 운전자의 직관과 일치하는 책임 분포를 추출한다. 결과는 책임 할당이 상황에 따라 동적으로 변함을 보여주며, 제안 방법이 해석 가능한 “책임 지도”를 제공함을 증명한다.
이 논문의 한계는 CBF 설계가 사전 지식에 의존한다는 점과, 현재는 충돌 회피라는 단일 안전 제약에 초점을 맞췄다는 점이다. 향후 연구에서는 다중 제약(예: 속도 제한, 교통 규칙)과 비선형·고차 시스템에 대한 확장, 그리고 학습된 책임을 실제 로봇 정책에 통합하는 실시간 제어 루프 구축이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기