감성연동 음성·동작 통합 프레임워크 SeM2

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SeM2는 Vision‑Language Model을 기반으로 인간의 말, 표정, 제스처를 동시에 이해·생성하여 감정적으로 일관된 멀티모달 상호작용을 구현한다. 멀티모달 인식, 체인‑오브‑생각(CoT) 응답 계획, 그리고 텍스트와 행동·표정을 시간적으로 정렬하는 SSAM이라는 세 핵심 모듈을 결합한다. 클라우드와 온‑디바이스(SeM2_e) 두 버전을 제공하며, 지식 증류를 통해 엣지 하드웨어에서도 원본 성능의 95%를 유지한다. 실험 결과, 단일 모달 대비 자연스러움·감정 명료성·모달 일관성에서 크게 향상된 것을 확인하였다.

상세 분석

SeM2가 제시하는 가장 큰 혁신은 VLM(Vision‑Language Model)을 멀티모달 HRI 파이프라인의 중앙 허브로 활용한 점이다. 기존 연구들은 음성·표정·동작을 각각 독립적인 모델이나 규칙 기반 시스템으로 처리했지만, SeM2는 하나의 통합된 프롬프트 체인을 통해 시각·청각 입력을 동시에 해석한다. 특히 SenseVoice와 YOLOv8‑face를 전처리 단계에 배치해 음성의 내용·감정과 사용자의 얼굴 표정을 정밀히 추출하고, 이를 구조화된 텍스트 형태로 VLM에 전달한다는 설계는 인식 정확도를 크게 높인다.

CoT(Chain‑of‑Thought) 프롬프트는 단순 텍스트 생성이 아니라 “언어‑표정‑동작 간의 의미적 일관성”을 고려하도록 설계되었다. 모델에게 각 모달리티가 서로 어떻게 보완해야 하는지를 명시적으로 요구함으로써, 예를 들어 ‘놀람’이라는 감정이 포함된 문장은 눈을 크게 뜨고 손을 들어올리는 제스처와 동시에 발화되도록 유도한다. 이는 기존 템플릿 기반 접근법이 갖는 ‘표정·동작 고정’ 문제를 극복한다.

핵심 모듈인 SSAM(Semantic‑Sequence Aligning Mechanism)은 텍스트 토큰과 행동·표정 라벨 사이의 의미적 연관성을 임베딩 기반 코사인 유사도로 측정하고, 동적 프로그래밍을 이용해 시간 제약 최적화를 수행한다. 구체적으로, 각 단어 w_i에 대해 발화 지속시간 τ(w_i)와 속도 보정 α를 적용해 시간 축 t_si를 계산하고, 의미 유사도 S(w_i, a_j)와 허용 오차 δ를 이용해 “단어‑행동 매핑”을 필터링한다. 이후 T(a_j) + d(a_j) ≤ T(a_{j+1})와 같은 순차적 제약을 만족하도록 최적 스케줄을 도출한다. 이 과정은 길고 복잡한 대화에서도 동작과 표정이 자연스럽게 동기화되도록 보장한다.

엣지 버전 SeM2_e는 대규모 VLM을 직접 실행하지 않는다. 대신 클라우드에서 학습된 교사 모델(GPT‑4o 기반)과 학생 모델(MiniCPM‑8B)을 활용해 지식 증류 파이프라인을 구축한다. 데이터 전처리 단계에서 11,500개의 멀티모달 샘플을 필터링·중복 제거한 뒤, SFT(Supervised Fine‑Tuning)와 양자화(Quantization)를 거쳐 4‑bit 모델로 압축한다. 실험에서는 CPU‑only 임베디드 보드에서도 20 fps 이상의 실시간 처리율을 달성했으며, 정량적 지표(Naturalness, Emotional Clarity, Modal Coherence)에서 클라우드 버전 대비 95% 수준의 성능을 유지했다.

평가에서는 AI 기반 자동 메트릭과 인간 평가자를 모두 활용했다. 자동 메트릭은 BLEU‑like 텍스트 일치, 표정·동작의 타이밍 오차, 감정 라벨 정확도를 측정했고, 인간 평가는 5점 척도로 자연스러움·감정 전달·전체 만족도를 평가했다. SeM2는 모든 항목에서 기존 단일 모달(음성 전용, 표정 전용, 동작 전용) 대비 평균 18%~27% 향상을 보였다. 특히 SSAM을 제외한 Ablation 실험에서는 타이밍 오차가 2배 이상 증가하며, 감정 명료성이 크게 저하되는 것을 확인했다.

한계점으로는(1) 현재 제스처 라이브러리가 사전 정의된 스크립트에 의존해 복잡한 자유형 동작 생성에 제약이 있다, (2) SSAM의 임계값 θ와 δ가 데이터셋에 따라 민감하게 변동해 일반화에 추가 튜닝이 필요하다, (3) 엣지 모델의 메모리 사용량이 여전히 2 GB 수준으로 고성능 로봇에선 추가 최적화가 요구된다. 향후 연구에서는 VLM 기반 제스처 생성기를 도입해 자유형 동작을 학습하고, 메타‑학습을 통해 SSAM 파라미터를 자동 적응시키는 방향을 제시한다.

전반적으로 SeM2는 VLM을 멀티모달 HRI의 통합 엔진으로 전환하고, 의미‑시간 정렬을 통한 정교한 동기화를 구현함으로써 감성 로봇 인터랙션의 새로운 패러다임을 제시한다.

감성연동 음성·동작 통합 프레임워크 SeM2

초록

상세 분석

댓글 및 학술 토론

의견 남기기