멀티유저 인간‑로봇 상호작용을 위한 대형언어모델 기반 다중모달 개인화 프레임워크 HARMONI

멀티유저 인간‑로봇 상호작용을 위한 대형언어모델 기반 다중모달 개인화 프레임워크 HARMONI
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HARMONI는 대형언어모델(LLM)을 활용해 사회보조 로봇이 다중 사용자와 장기적인 대화를 개인화할 수 있도록 설계된 프레임워크이다. 영상·음성 입력을 통해 화자를 식별하고, 단기 대화 맥락과 장기 사용자 프로필을 동시에 관리한다. 윤리·프라이버시를 고려한 응답 생성과, 실제 요양원 환경에서 수행한 사용자 연구를 통해 기존 LLM 기반 방법보다 사용자 모델링 정확도·개인화 품질·만족도가 크게 향상됨을 입증한다.

상세 분석

본 논문은 현재 인간‑로봇 상호작용(HRI) 연구가 직면한 “다중 사용자·다중 턴·장기 기억”이라는 3중 과제를 해결하기 위해 네 가지 핵심 모듈을 계층적으로 결합한 HARMONI 시스템을 제안한다.

  1. Perception Module: 영상 스트림을 실시간으로 음성 활동 감지(FastRTC)와 얼굴 검출(YOLOv8‑Face)으로 분리하고, 입술 움직임 기반의 Lip‑Motion 분석을 통해 현재 발화자를 정확히 판별한다. Whisper‑Turbo를 이용한 고정밀 음성‑텍스트 변환과 INSIGHT‑FACE‑ACE 이미지 임베딩을 병행함으로써 시각·청각 정보를 동기화한다.

  2. User Modeling Module: 화자 이미지와 음성 텍스트를 각각 벡터화한 뒤, 기존 사용자 데이터베이스와 유사도 매칭을 수행한다. 사용자가 신규인 경우 즉시 프로필을 초기화하고, 기존 사용자라면 Google/EmbeddingGemma‑300M을 활용해 현재 질의와 과거 대화 기록 사이의 의미적 연관성을 추출한다. 또한 연령·성별·감정 등 인구통계·정서 특성을 추정해 프로필에 지속적으로 반영한다. 이 과정은 LLM(gemma‑3‑27B) 기반의 멀티모달 추론 파이프라인에 의해 통합·정제된다.

  3. World Modeling Module: 현재 방에 존재하는 모든 사용자와 환경 상태를 텍스트 임베딩 기반으로 인코딩하고, 단기 대화 히스토리를 별도 메모리 버퍼에 저장한다. 사용자별 장기 메모리와 단기 메모리를 명시적으로 구분함으로써, “누가 언제 무엇을 말했는가”에 대한 시계열적 일관성을 보장한다. 또한, 모듈은 불확실성이 높은 경우 “불확실함”을 명시적으로 반환해 hallucination을 억제한다.

  4. Generation Module: 최종 응답은 (i) 현재 화자 프로필, (ii) 해당 사용자의 장기 메모리, (iii) 방 전체의 세계 모델, (iv) 윤리·프라이버시 정책을 입력으로 하는 프롬프트를 LLM에 전달해 생성한다. 응답 생성 시 개인정보 최소화, 데이터 사용 동의 여부, 위험도 평가 등을 자동으로 체크하는 윤리 필터가 삽입되어 있다.

기술적 기여는 다음과 같다. 첫째, 멀티모달 화자 식별과 실시간 텍스트 변환을 결합해 다중 사용자가 동시에 발화하는 상황에서도 정확한 화자 구분을 달성한다. 둘째, 장기 사용자 프로필을 텍스트·이미지·음성 3가지 모달리티로 지속적으로 업데이트함으로써, 개인화된 대화가 시간에 따라 누적·진화한다. 셋째, 세계 모델과 사용자 모델을 분리하면서도 LLM 기반의 통합 추론을 수행해, 대화 흐름 전환(예: 인터럽션)과 지시어 해소(예: “그 약속”)를 정확히 처리한다. 넷째, 윤리·프라이버시 설계가 시스템 전반에 내재화돼, 민감한 요양원 환경에서도 안전하게 배포될 수 있다.

평가는 네 개의 공개 데이터셋(멀티모달 대화·화자 식별·장기 기억 등)과 실제 요양원에서 진행한 사용자 연구를 통해 수행되었다. Ablation 실험에서 각 모듈을 차례로 제거했을 때 사용자 모델링 정확도(F1)와 개인화 만족도(NPS)가 평균 12%·15% 감소함을 확인했다. 전체 시스템은 기존 LLM‑기반 베이스라인 대비 사용자 모델링 정확도 87→94%, 개인화 품질 3.2→4.1(5점 척도), 사용자 만족도 68→82점(100점) 향상을 기록했다.

한계점으로는 (1) 화자 식별 정확도가 조명·배경 복잡도가 높은 환경에서 약간 감소하고, (2) 장기 메모리 규모가 커질수록 검색 효율이 저하되는 점, (3) 윤리 필터가 과도하게 보수적일 경우 응답이 회피적일 가능성이 있다. 향후 연구에서는 경량화된 벡터 검색 구조와 동적 윤리 정책 조정 메커니즘을 도입해 실시간 성능을 개선할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기