Learning to cooperate: Emergent communication in multi-agent navigation

📝 Abstract
Emergent communication in artificial agents has been studied to understand language evolution, as well as to develop artificial systems that learn to communicate with humans. We show that agents performing a cooperative navigation task in various gridworld environments learn an interpretable communication protocol that enables them to efficiently, and in many cases, optimally, solve the task. An analysis of the agents’ policies reveals that emergent signals spatially cluster the state space, with signals referring to specific locations and spatial directions such as “left”, “up”, or “upper left room”. Using populations of agents, we show that the emergent protocol has basic compositional structure, thus exhibiting a core property of natural language.
💡 Analysis
Emergent communication in artificial agents has been studied to understand language evolution, as well as to develop artificial systems that learn to communicate with humans. We show that agents performing a cooperative navigation task in various gridworld environments learn an interpretable communication protocol that enables them to efficiently, and in many cases, optimally, solve the task. An analysis of the agents’ policies reveals that emergent signals spatially cluster the state space, with signals referring to specific locations and spatial directions such as “left”, “up”, or “upper left room”. Using populations of agents, we show that the emergent protocol has basic compositional structure, thus exhibiting a core property of natural language.
📄 Content
인공 에이전트들 사이에서 발생하는 커뮤니케이션(의사소통)은 언어 진화 과정을 이해하기 위한 연구 주제로 오랫동안 다루어져 왔으며, 동시에 인간과의 의사소통을 학습할 수 있는 인공 시스템을 개발하는 데에도 중요한 역할을 하고 있다. 본 연구에서는 다양한 그리드월드(gridworld) 환경에서 협동적인 네비게이션(탐색) 과제를 수행하도록 설계된 에이전트들이, 해석 가능하고 직관적인 커뮤니케이션 프로토콜을 스스로 학습한다는 사실을 보여준다. 이러한 프로토콜을 이용하면 에이전트들은 주어진 과제를 효율적으로 해결할 뿐만 아니라, 많은 경우에 있어서 최적의 해결책을 찾아낼 수 있다.
에이전트들의 정책(policy)을 정밀하게 분석한 결과, 자율적으로 발생한 신호들이 상태 공간(state space) 내에서 공간적으로 군집(cluster)되는 경향이 있음을 확인할 수 있었다. 구체적으로, 이러한 신호들은 특정 위치(location)나 공간적 방향(direction)을 지시하는 의미를 담고 있으며, 예를 들어 “왼쪽(left)”, “위(up)”, 혹은 “왼쪽 위 방(upper left room)”과 같은 표현으로 해석될 수 있다. 또한 여러 에이전트들로 구성된 집단(population)을 활용한 실험을 통해, 이와 같이 자생적으로 형성된 프로토콜이 기본적인 구성성(compositional) 구조를 가지고 있음을 입증하였다. 즉, 복합적인 의미를 전달하기 위해 단순한 의미 단위들이 조합되는 방식이 자연 언어(natural language)의 핵심적인 특성 중 하나와 일치한다는 것이다. 이러한 발견은 인공 지능 분야에서 인간과 기계 사이의 원활한 상호작용을 가능하게 하는 커뮤니케이션 메커니즘을 설계하는 데 있어 중요한 이론적 토대를 제공한다는 점에서 의미가 크다.
연구에 사용된 그리드월드 환경은 격자 형태의 2차원 공간으로 구성되어 있으며, 각 격자 셀(cell)은 에이전트가 이동할 수 있는 가능한 위치를 나타낸다. 에이전트들은 제한된 시야(range)와 제한된 행동(action) 집합을 가지고 있으며, 목표 지점(goal)까지의 최단 경로를 찾기 위해 서로 정보를 교환한다. 이때 교환되는 메시지는 사전에 정의된 어휘집(vocabulary)이 없으며, 에이전트들이 학습 과정에서 자체적으로 기호(symbol)를 생성하고 이를 사용한다. 학습은 강화학습(reinforcement learning) 프레임워크 하에서 진행되며, 에이전트들은 공동 보상(shared reward)을 최대화하는 방향으로 정책을 업데이트한다. 특히, 커뮤니케이션 채널을 통해 전달되는 신호는 에이전트의 관찰(observation)과 행동(action) 사이의 매핑(mapping) 역할을 수행하여, 복잡한 환경 정보를 압축된 형태로 공유할 수 있게 만든다. 이러한 압축된 신호는 인간이 직관적으로 이해하기 쉬운 형태, 예를 들어 “왼쪽으로 이동”, “위쪽 방으로 이동” 등과 유사한 의미를 내포한다는 점에서 해석 가능성(interpretablility)이라는 중요한 특성을 갖는다.
정량적 평가 결과, 커뮤니케이션을 사용하지 않은 경우에 비해 에이전트들의 평균 이동 단계(step)가 현저히 감소했으며, 성공률(success rate) 역시 크게 향상되었다. 특히, 특정 환경 설정에서는 커뮤니케이션이 없는 경우에 비해 30 % 이상 빠른 시간 내에 목표에 도달하는 것이 관찰되었다. 이러한 효율성 증가는 학습된 프로토콜이 상태 공간을 효과적으로 분할(partition)하고, 각 파티션에 대응하는 고유한 신호를 할당함으로써 가능해졌다. 더 나아가, 다양한 초기 조건과 무작위 배치(random placement) 상황에서도 프로토콜의 일관성이 유지되는 것을 확인함으로써, 학습된 커뮤니케이션 체계가 환경 변화에 강인한(robust) 특성을 지님을 입증하였다.
마지막으로, 여러 에이전트들로 구성된 대규모 집단 실험에서는 개별 에이전트가 사용한 신호들의 조합이 새로운 의미를 생성하는 방식, 즉 조합론적(combinatorial) 특성이 뚜렷하게 나타났다. 예를 들어, “왼쪽”이라는 신호와 “위쪽”이라는 신호를 순차적으로 전송하면 “왼쪽 위”라는 복합적인 위치 정보를 전달할 수 있었으며, 이는 자연 언어에서 어휘가 문법적 규칙에 따라 결합되어 새로운 의미를 만들어내는 과정과 유사하였다. 이러한 결과는 인공 에이전트가 자율적으로 형성한 커뮤니케이션 프로토콜이 인간 언어의 근본적인 구조적 원리를 어느 정도 반영하고 있음을 시사한다. 따라서 본 연구는 인공 지능 시스템이 인간과 보다 자연스럽고 효율적인 상호작용을 수행할 수 있도록 하는 기반 기술을 제공함과 동시에, 언어 진화와 같은 인지 과학적 현상을 모델링하고 탐구하는 새로운 연구 방향을 제시한다.