위치 기반 다중 에이전트 행동 추론

초록

본 논문은 GPS 센서로 수집된 잡음이 많은 위치 데이터를 이용해, 캡처 더 플래그 게임에서 다중 에이전트의 협동·대립 행동과 그 의도를 추론한다. 마코프 논리망(MLN)을 활용해 공간 제약, 이동 모델, 게임 규칙을 논리·확률적으로 결합하고, 성공·실패 사례를 동시에 학습함으로써 활동의 성공 여부와 목표를 높은 정확도로 식별한다. 실험 결과, 관계와 시간 전후 정보를 모두 고려한 통합 모델이 기존 방법보다 현저히 우수함을 보였다.

상세 분석

이 연구는 위치 기반 센서 데이터가 갖는 불확실성을 논리적 제약과 확률적 추론을 결합한 마코프 논리망(Markov Logic Network, MLN)으로 완화한다는 점에서 의미가 크다. 먼저 저자들은 캡처 더 플래그(Capture the Flag, CTF)라는 명확한 규칙과 목표를 가진 멀티플레이어 게임을 실험 환경으로 선택했다. 게임 영역은 고정된 지오메트리(벽, 구역)와 플레이어의 이동 경로로 구성되며, GPS 좌표는 수 초 간격으로 기록되지만 잡음과 누락이 빈번히 발생한다. 이러한 원시 데이터를 그대로 사용하면 개별 플레이어의 행동을 정확히 파악하기 어렵다.

MLN은 1차 수준에서 ‘플레이어 A는 시각 t에 위치 (x,y)이다’와 같은 원자적 사실을 정의하고, 2차 수준에서는 ‘플레이어 A가 적 영역에 진입하면 적을 포획할 가능성이 있다’와 같은 규칙을 가중치가 부여된 논리식으로 표현한다. 저자들은 크게 세 종류의 제약을 모델링했다. 첫째, 공간 제약은 벽이나 금지 구역을 침범할 수 없다는 논리식으로, 잡음이 큰 좌표를 정규화한다. 둘째, 운동 모델은 연속된 타임스텝 간 거리 제한과 속도 분포를 가우시안 형태로 기술해, 비현실적인 급격 이동을 억제한다. 셋째, 게임 규칙은 플래그를 잡은 후 반환해야 함, 적을 포획하면 일정 시간 동안 움직일 수 없다는 등 CTF 고유의 동적 관계를 정의한다.

학습 단계에서는 성공적인 행동(예: 적을 포획)과 실패한 시도(예: 포획 시도 후 도망) 두 종류의 라벨이 포함된 데이터셋을 사용한다. 라벨이 없는 원시 GPS는 MLN의 잠재 변수로 취급되어, EM‑style 알고리즘을 통해 가중치를 최대우도 추정한다. 특히, 실패 사례를 명시적으로 모델에 포함시킴으로써 ‘시도 → 실패 → 재시도’와 같은 패턴을 학습하고, 이는 이후 추론 시 성공 여부를 구분하는 중요한 힌트가 된다.

추론은 마코프 체인 몬테카를로(MCMC) 샘플링 기반의 MAP 추정으로 수행되며, 전체 게임 기간에 걸친 전역 최적화를 목표한다. 즉, 현재 시점의 관측만이 아니라 과거와 미래 행동의 연속성을 동시에 고려한다. 이 접근법은 단일 타임스텝 기반의 베이즈 네트워크나 HMM과 달리, 복잡한 다중 에이전트 상호작용을 자연스럽게 포착한다.

실험 결과는 두 가지 주요 지표에서 기존 방법을 크게 앞선다. 첫째, 활동 인식 정확도는 92% 이상으로, 특히 잡음이 심한 구역에서 10~15% 포인트 상승을 보였다. 둘째, 실패·성공 구분 능력은 라벨이 없는 상황에서도 85% 이상의 F1 점수를 기록했다. 또한, 실패 사례를 모델에 포함했을 때 다른 부수적인 태스크(예: 플래그 소유자 추정, 팀 전략 파악)의 성능도 평균 7% 정도 향상되었다.

이 논문의 핵심 기여는 (1) 다중 에이전트 행동을 공간·시간·규칙적 제약을 통합한 확률 논리 모델로 표현, (2) 성공·실패 양상을 동시에 학습함으로써 의도와 목표를 추론, (3) 전역적인 게임 흐름을 고려한 추론이 로컬 기반 방법보다 뛰어난 성능을 보임을 실증한 점이다. 향후 연구에서는 실시간 추론을 위한 효율적인 근사 알고리즘 개발과, GPS 외에 비전·음성 등 이종 센서를 결합한 멀티모달 확장 가능성을 제시한다.