상호작용 이력과 단기 기억: 인간‑유사 휴머노이드 로봇의 턴테이킹 행동 발달

초록

본 논문은 인간 파트너와의 상호작용 게임을 통해 시각적 주의와 행동 동기화라는 사회적 피드백을 이용해, 휴머노이드 로봇이 턴테이킹 행동을 학습하고 전환하도록 설계된 인에이전트(Enactive) 아키텍처를 제시한다. 실험 결과, 즉시 상태만을 기반으로 한 강화는 일부 턴테이킹 패턴을 습득하지 못함을 보여, 짧은 기간의 상호작용 이력이 포함된 단기 기억이 학습에 필수적임을 확인하였다.

상세 분석

이 연구는 인에이전트(Enactive) 접근법을 로봇 행동 학습에 적용함으로써, 전통적인 모델 기반 제어와는 달리 로봇이 환경과의 지속적인 상호작용을 통해 의미를 구성하도록 설계하였다. 핵심 메커니즘은 두 단계의 강화 학습 구조로, 첫 번째 단계는 인간의 시각적 주의(눈동자 추적)와 행동 동기화 지표(동시 움직임, 속도 일치 등)를 실시간으로 측정해 즉시 보상으로 변환한다. 두 번째 단계는 ‘단기 기억(Short‑Term Memory, STM)’ 모듈을 통해 최근 N개의 상호작용 이력을 저장하고, 이 이력 기반의 누적 보상을 계산한다. STM은 단순히 과거 보상의 평균을 내는 것이 아니라, 시간 가중치를 적용해 최신 상호작용에 더 큰 영향을 주도록 설계되었다.

실험 설계는 두 가지 턴테이킹 시나리오(‘가위‑바위‑보’와 ‘공 던지기’)를 사용했으며, 각 시나리오마다 로봇이 ‘행동 선택 → 인간 피드백 → 보상 → 정책 업데이트’의 사이클을 반복한다. 결과는 즉시 보상만을 사용한 경우, 로봇이 ‘대기 → 행동’ 전환은 학습했지만, ‘행동 → 대기’ 전환(즉, 상대가 행동을 마친 뒤 기다리는 행동)에서는 수렴이 일어나지 않음을 보여준다. 반면, STM을 포함한 경우 두 전환 모두 안정적으로 학습되었으며, 정책 전환 시점이 인간 파트너의 행동 리듬에 맞춰 조정되는 현상이 관찰되었다.

이 논문의 주요 기여는 다음과 같다. 첫째, 인간‑로봇 상호작용에서 사회적 피드백을 정량화하고 강화 신호로 변환하는 방법을 제시했다. 둘째, 짧은 기간의 상호작용 이력을 활용한 STM이 턴테이킹과 같은 시퀀셜 행동 학습에 필수적임을 실험적으로 입증했다. 셋째, 인에이전트 아키텍처가 복잡한 모델링 없이도 실시간 상호작용 기반 학습을 가능하게 함을 보여, 향후 사회적 로봇 및 교육용 로봇에 적용 가능한 프레임워크를 제공한다.