소셜 로봇을 위한 신경망 기반 시선 제어 시스템 개발
초록
**
본 연구는 2D·3D 애니메이션 영상에서 수집한 인간 시선 데이터를 이용해 LSTM과 Transformer 모델을 학습시켜, 멀티파티 상황에서 로봇의 시선 방향을 예측한다. 2D 환경에서 60%, 3D 환경에서 65%의 정확도를 달성했으며, 최적 모델을 NAO 로봇에 적용해 36명의 평가자에게 만족도를 조사하였다.
**
상세 분석
**
이 논문은 소셜 로봇이 인간과 자연스럽게 상호작용하기 위해 필수적인 ‘시선 제어’를 데이터‑드리븐 방식으로 구현하려는 시도이다. 먼저 2D 화면과 VR 헤드셋을 활용한 두 종류의 영상(각 10분, 128·120개의 사회적 상황)에서 30명의 피험자를 대상으로 시선 데이터를 수집하였다. 2D 실험에서는 고정밀 EyeLink 1000 Plus(2000 Hz)로 눈동자 좌표를 기록하고, 3D 실험에서는 Oculus Quest 1의 내부 트래킹을 이용했지만 눈 움직임은 측정하지 못했다는 점이 한계로 지적된다.
데이터 전처리는 4×7 행렬 형태로 정규화했으며, 여기에는 존재 여부, 거리, 손동작, 말하기 여부, 각도, 이동 상태 등 7가지 특성이 포함된다. 이러한 특성을 시간 순서대로 입력으로 사용해 LSTM과 Transformer 두 모델을 설계했는데, 구체적인 레이어 수, 은닉 차원, 학습률 등 상세 파라미터는 논문에 명시되지 않아 재현 가능성이 낮다. 모델 평가는 단순 정확도(2D 60 %, 3D 65 %)만을 제시했으며, 혼동 행렬이나 F1‑score와 같은 정밀도·재현율 지표가 부재하다. 이는 시선 예측이 다중 클래스(여러 사람 중 선택) 문제임을 고려하면 평가가 불충분하다는 비판을 받을 수 있다.
가장 성능이 좋은 모델을 NAO 로봇에 이식한 뒤, 36명의 새로운 참가자에게 로봇의 시선 행동에 대한 설문을 진행하였다. 결과는 전반적인 만족도를 보였으나, 로봇공학에 익숙한 집단이 더 높은 점수를 주었다는 점에서 사용자의 전문성에 따라 인식 차이가 존재함을 시사한다. 또한, 실시간 응답 시간, 로봇의 물리적 제한(관절 속도·시야 범위) 등에 대한 기술적 검증이 부족하다.
관련 연구와 비교했을 때, 기존에는 강화학습 기반의 자율 시선 제어, 멀티모달 센서 융합, 혹은 인간-로봇 눈맞춤 감지에 초점을 맞추었다. 본 논문은 순수히 시각적 상황 특성만을 이용해 시선 목표를 예측한다는 점에서 차별화되지만, 눈동자 움직임 자체를 모델링하지 않은 점은 인간 시선의 미세한 변화를 포착하지 못한다는 약점으로 남는다.
결론적으로, 데이터 수집 규모(30명)와 상황 다양성(2D·3D 각각 128·120개)은 초기 탐색 단계에 적합하나, 실제 인간-로봇 상호작용에 적용하기 위해서는 더 큰 피험자 풀, 다양한 문화·연령군, 실시간 피드백 루프, 그리고 멀티모달(음성·제스처·표정) 통합이 필요하다. 또한, 모델 해석 가능성을 높이기 위해 어텐션 맵 분석이나 시선 전이 패턴 시각화가 추가된다면 로봇 설계자에게 실용적인 인사이트를 제공할 수 있을 것이다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기