멀티파티 대화를 위한 감정 인식 임베디드 시스템 UGotMe

멀티파티 대화를 위한 감정 인식 임베디드 시스템 UGotMe
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인간-로봇 대화에서 로봇이 실시간으로 인간의 감정을 인식하고, 적절한 표정으로 응답하도록 설계된 UGotMe 시스템을 제안한다. 환경 잡음(불필요한 객체·비활성 화자) 제거를 위해 얼굴 추출 및 활성 화자 추적 전략을 적용하고, 이미지 스트리밍을 별도 스레드로 전송해 실시간성을 확보한다. 제안된 Vision‑Language‑to‑Emotion(VL2E) 모델은 MELD 데이터셋에서 기존 방법들을 능가하며, Ameca 로봇에 탑재해 실제 멀티파티 대화 시연을 수행하였다.

상세 분석

UGotMe는 인간‑로봇 상호작용(HRI)에서 감정 인식의 두 가지 핵심 장애요소—시각적 환경 잡음과 실시간 처리 요구—를 동시에 해결하려는 시도이다. 첫 번째 장애요소는 멀티파티 대화 상황에서 로봇 카메라에 잡히는 비활성 화자나 배경 물체가 감정 인식 모델에 혼선을 주는 것이다. 이를 해결하기 위해 논문은 두 단계의 ‘디노이징’ 전략을 제안한다. (1) 얼굴 이미지 추출: 원시 RGB 프레임에서 MTCNN 기반으로 얼굴을 검출하고, OpenFace를 이용해 얼굴 영역만을 잘라낸다. (2) 활성 얼굴 추출: 로봇의 머리와 왼쪽 눈 카메라를 음향 도착 방향에 맞춰 회전시켜, x‑축 중앙에 위치한 얼굴을 ‘활성 화자’로 간주한다. 이 과정에서 사람별 중립 얼굴을 이용한 ‘중립 정규화’를 적용해 개인 차이를 보정한다. 학습 단계에서는 MELD 데이터셋에 대해 첫 프레임을 중립 얼굴로 사용하거나, 사전 정의된 중립 얼굴을 수동 지정한다.

두 번째 장애요소인 실시간성 확보를 위해 저자는 이미지 데이터를 바이트 스트림 형태로 TCP 기반 ZMQ 라이브러리를 이용해 로봇에서 로컬 서버로 지속적으로 전송한다. 별도 스레드에서 최신 T(=640) 프레임을 버퍼링함으로써 모델이 즉시 최신 프레임을 소비하도록 설계했으며, 텍스트는 대화 턴이 생성될 때만 전송한다. 이러한 파이프라인은 25 FPS 스트리밍을 유지하면서도 지연을 최소화한다.

감정 인식 핵심 모델인 VL2E는 Vision‑Language‑to‑Emotion의 약자로, 얼굴 시퀀스를 입력받는 Vision Encoder와 대화 문맥을 고려한 Text Encoder를 멀티모달 트랜스포머로 융합한다. Vision Encoder는 InceptionResnet‑v1(CASIA‑WebFace 사전학습)으로 프레임‑레벨 특징을 추출하고, 자체‑어텐션 트랜스포머로 intra‑modal 상호작용을 모델링한다. 텍스트 인코더는 SimCSE 기반으로, 최근 k 턴의 대화와 함께 “for <u_t>, speaker feels .” 형태의 프롬프트를 붙여 컨텍스트를 강화한다. 이후 cross‑modal 트랜스포머가 두 모달을 결합해 최종 감정 라벨을 예측한다. MELD 데이터셋(13 k utterances, 7 감정 클래스)에서 weighted‑average F1 점수 기준으로 기존 최첨단 모델들을 모두 앞선 성능을 보였으며, 특히 비활성 화자와 배경 잡음이 존재하는 상황에서 강인함을 입증했다.

시스템 구현 측면에서 저자는 Ameca(Engineered Arts) 로봇에 UGotMe를 탑재했다. 로봇은 온보드 카메라와 마이크로 입력을 수집하고, Google Cloud Speech‑to‑Text로 텍스트를 변환한다. 감정 인식 결과는 사전 정의된 7가지 로봇 표정(중립, 놀람, 공포, 슬픔, 기쁨, 혐오, 분노) 중 하나로 매핑되어 로봇의 얼굴 모터에 전달된다. 실험은 사전에 설계된 스크립트를 기반으로 다수의 자원봉사자를 대상으로 진행됐으며, GPT 기반 언어 모델이 로봇의 언어 응답을 생성하고, AWS Polly가 음성 합성을 담당했다. 전체 파이프라인은 단일 NVIDIA H100 GPU에서 학습·추론되었고, AdamW와 cosine‑warmup 스케줄러를 사용해 최적화했다.

핵심 기여는 (1) 환경 잡음과 실시간 요구를 동시에 만족하는 HRI 시스템 설계, (2) 멀티모달 감정 인식에 특화된 VL2E 모델 제안 및 MELD에서의 우수 성능 입증, (3) 실제 인간‑로봇 대화 시연을 통한 실용성 검증이다. 향후 연구에서는 중립 얼굴 자동 추정, 다중 활성 화자 동시 처리, 그리고 감정 표현을 위한 로봇 몸짓·제스처까지 확장하는 방향을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기