인체와 감각을 결합한 인간형 시청각 탐색 모델
초록
본 논문은 인간이 청각·시각 단서를 활용해 목표를 찾는 과정을, 신체 움직임과 인지 비용을 동시에 고려한 자원‑합리적 의사결정 모델인 Sensonaut으로 구현한다. 부분관측 마코프 결정 과정(POMDP)과 강화학습을 이용해 머리 회전·보행 등의 행동을 선택하도록 학습시켰으며, 가상현실 실험에서 수집한 인간 데이터를 통해 탐색 시간, 물리적 노력, 오류 유형을 성공적으로 재현했다.
상세 분석
Sensonaut은 인간의 시청각 탐색을 “자원‑합리적”이라는 인지 과학적 프레임워크 안에서 공식화한다. 저자들은 탐색 과제를 부분관측 마코프 결정 과정(POMDP)으로 모델링하고, 상태를 에이전트의 믿음(belief) 분포—극좌표 그리드 상의 목표 위치 확률—로 정의한다. 관측은 두 종류로 나뉘는데, 청각은 양쪽 귀의 시간 차이(ITD)와 레벨 차이(ILD)를 기반으로 전방·후방 혼동을 포함한 연속적인 방향 정보를 제공하고, 시각은 목표가 시야에 들어왔을 때 고해상도 특징을 제공한다. 이 두 관측을 베이즈 규칙에 따라 결합해 사후 믿음을 업데이트한다.
행동 선택은 “유틸리티 – 비용” 형태의 목표 함수를 최대화하는 정책 π*를 찾는 문제로 전환된다. 여기서 유틸리티는 목표를 정확히 지정했을 때 얻는 보상이며, 비용은 머리 회전, 전진, 대기, 충돌 등에 부여된 물리·시간적 페널티를 포함한다. 할인 계수 γ는 미래 비용·보상의 가중치를 조절한다. 이러한 구조는 인간이 “불확실성이 충분히 낮아졌을 때” 탐색을 중단하고 결정을 내리는 현상을 자연스럽게 설명한다.
정책 학습은 모델‑프리 강화학습(예: PPO)으로 수행되며, 에이전트는 시뮬레이션 환경에서 다양한 복잡도(장애물 수, 방해음원 수, 초기 목표 방향)와 노이즈 조건을 경험한다. 학습 과정에서 에이전트는 저비용인 머리 회전을 우선적으로 사용해 정보를 획득하고, 불확실성이 크게 남아 있을 경우에만 전진을 선택한다는 인간‑유사 전략을 자동으로 습득한다.
실험에서는 가상현실(VR) 환경에서 48명의 참가자를 대상으로 청각‑시각 목표 탐색 과제를 설계하였다. 변수로는 장애물(시각적 가림), 방해음원(청각적 혼동), 목표 초기 각도 등이 포함된다. 측정된 지표는 탐색 시간, 총 회전·보행 거리, 그리고 목표를 잘못 지정한 오류 유형(전방‑후방 혼동, 시각‑청각 결합 오류)이다. Sensonaut은 이러한 지표들을 정량적으로 재현했으며, 특히 “복잡도가 증가할수록 머리 회전 비중이 높아지고, 전진은 필요 최소 수준으로 제한된다”는 패턴을 정확히 포착했다.
주요 기여는 (1) 청각·시각 통합과 신체 행동 비용을 동시에 고려한 자원‑합리적 POMDP 모델 제시, (2) 강화학습을 통한 인간‑유사 정책 학습 방법론 제공, (3) 실제 인간 행동 데이터를 통해 모델 검증 및 공개 데이터셋 제공이다. 한계점으로는 현재 2D 평면(극좌표) 모델에 머물러 있어 고도·수직 움직임을 다루지 못하고, 실제 물리적 피로도나 위험 회피와 같은 복합적인 인간 비용을 정량화하는 데 제약이 있다. 향후 연구에서는 3D 환경 확장, 개인별 비용 파라미터 추정, 그리고 실시간 인터페이스 설계에 Sensonaut을 적용하는 방안을 모색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기