협업 행동 계획과 의도 인식

초록

본 논문은 마르코프 의사결정 과정(MDP)을 활용해 인간 플레이어와 협력하는 NPC를 설계한다. 게임 과제가 다수의 변수로 복잡할 경우, 과제를 하위 작업으로 분해하고 각각을 독립적인 MDP로 모델링한다. 인간의 현재 행동을 의도 인식(Intention Recognition) 기법으로 추정해 적절한 하위 작업을 선택하고, 그 작업에 맞는 보조 행동을 제공한다. 실험 결과, 제안 방법은 인간 수준에 근접하는 협력 성능을 보이며, 복잡한 협업 게임에서도 효과적으로 동작한다.

상세 분석

이 연구는 협업 게임에서 인간 플레이어를 지원하는 비플레이어 캐릭터(NPC)의 행동 계획을 결정론적·확률론적 프레임워크로 정형화한다는 점에서 의미가 크다. 핵심은 마르코프 의사결정 과정(MDP)을 이용해 최적 정책을 도출하는 것이지만, 전통적인 MDP는 상태 공간이 폭발적으로 커지는 ‘차원의 저주’를 겪는다. 이를 해결하기 위해 저자들은 게임 과제를 하위 작업(subtask) 으로 분해하고, 각 하위 작업을 독립적인 MDP로 모델링한다는 분해 전략을 제시한다. 이렇게 하면 각 MDP는 상대적으로 작은 상태·행동 집합을 가지므로 동적 프로그래밍(예: 가치 반복, 정책 반복)이나 근사 방법을 적용하기가 수월해진다.

하위 작업 선택은 의도 인식(Intention Recognition) 모듈에 맡겨진다. 인간 플레이어의 관찰 가능한 행동 시퀀스를 기반으로 베이즈 추론을 수행해 현재 플레이어가 어느 하위 작업을 수행하고 있는지 확률적으로 추정한다. 구체적으로, 각 하위 작업에 대한 사전 확률과 행동-상태 전이 모델을 이용해 사후 확률을 갱신한다. 이 과정은 실시간으로 진행되며, NPC는 가장 높은 사후 확률을 가진 하위 작업에 대응하는 정책을 즉시 적용한다.

또한, 저자들은 협업 보조 행동을 정의할 때 보조 NPC가 인간의 목표를 방해하지 않도록 보조 비용(penalty) 을 설계한다. 즉, NPC가 선택한 행동이 인간의 진행을 저해하면 그에 대한 비용이 크게 부과되어 정책 최적화 과정에서 자연스럽게 회피된다. 이는 인간-컴퓨터 협업에서 흔히 발생하는 ‘협업 충돌’을 최소화하는 설계 원칙과 일맥상통한다.

실험은 두 가지 협업 게임 시나리오(간단한 퍼즐형 게임과 복합적인 전략형 게임)에서 수행되었다. 각 시나리오마다 인간 플레이어와 NPC가 공동으로 목표를 달성하도록 설계되었으며, 제안 방법을 적용한 NPC와 전통적인 규칙 기반 NPC를 비교했다. 결과는 성공률, 평균 완료 시간, 인간 주관적 만족도 세 측면에서 유의미하게 우수했으며, 특히 인간이 수행하는 하위 작업을 정확히 추정했을 때 NPC의 보조 효과가 급격히 상승한다는 점을 확인했다.

이 논문의 한계점으로는 하위 작업 정의가 도메인 전문가에 의존한다는 점과, 의도 인식 모델이 관찰 가능한 행동에 크게 의존해 행동이 제한적인 경우 정확도가 떨어질 수 있다는 점을 들 수 있다. 향후 연구에서는 자동으로 하위 작업을 추출하는 옵티컬 흐름 기반 클러스터링이나, 딥 러닝 기반 행동 예측을 결합해 보다 일반화된 프레임워크를 구축할 여지가 있다.

전반적으로, 복잡한 협업 환경에서 인간의 의도를 실시간으로 파악하고, 이를 기반으로 최적 보조 정책을 적용하는 구조는 인간-컴퓨터 상호작용(HCI) 및 인공지능(AI) 분야에 중요한 설계 패러다임을 제공한다.