인간 선호에 맞춘 얼굴 표정 생성으로 자연스러운 대화 상호작용 구현
초록
본 논문은 화자와 청자의 멀티모달 신호를 입력으로 받아, 청자의 얼굴 표정을 3D 모프 가능 모델의 저차원 행동 공간으로 매핑하는 Vision‑Language‑Action(VLA) 모델을 제안한다. 표정 생성 과정을 정체성‑독립적인 행동 학습으로 정의하고, 인간 피드백을 활용한 직접 선호 최적화(DPO) 기반 강화학습을 도입해 인간이 선호하는 감정·사회적 적합성을 지속적으로 맞춘다. 두 개의 공개 데이터셋(L2L‑trevor, RealTalk)에서 기존 방법들을 크게 능가하는 성능을 보인다.
상세 분석
이 연구는 “표정 생성 = 행동 선택”이라는 새로운 패러다임을 제시한다. 기존 3D 대화형 헤드 생성 모델들은 주로 음성‑입술 동기화에 초점을 맞추어 정체성(피사체)의 시각적 특성과 표정을 얽혀 학습한다. 그 결과 인간 평가자는 시각적 퀄리티와 표정 적합성을 혼동하게 되어, 실제 사회적 규범에 부합하는 피드백을 얻기 어렵다. 저자들은 FLAME 기반의 정체성‑고정 파라미터와 별도로 표현계수 a_exp와 자세계수 a_pose를 행동 A_t로 정의함으로써, 모델이 오직 ‘표정·자세’라는 순수 행동 공간에서 학습하도록 설계했다.
Vision‑Language‑Action 모델은 세 부분으로 구성된다. 첫째, DINO와 SigLIP을 병렬로 활용한 듀얼‑스트림 비주얼 인코더가 얼굴 움직임과 전반적 감정·사회적 단서를 각각 추출한다. 둘째, LLaMA‑2(7B) 기반 대형 언어 모델이 텍스트 토큰과 이미지 토큰을 결합해 멀티모달 컨텍스트를 이해한다. 셋째, 행동 디토크나이저가 연속적인 a_exp·a_pose 값을 256‑bin 양자화 후 토큰화하여 LLM의 출력 공간에 매핑한다. 이렇게 하면 LLM이 직접 연속 행동을 예측하는 대신, 정형화된 토큰 시퀀스를 생성하고, 역디코딩을 통해 다시 연속 파라미터로 복원한다.
학습은 두 단계로 진행된다. (1) Supervised Fine‑Tuning(SFT) 단계에서는 실제 대화 데이터에서 추출한 청자 행동을 교차 엔트로피 손실과 시간적 일관성 정규화(L_temp)로 모방한다. 이는 기본적인 입술·표정 동기화 능력을 확보한다. (2) Human‑Feedback Reinforcement Learning 단계에서는 SFT‑모델이 N개의 후보 행동 시퀀스를 샘플링하고, 이를 시각화해 인간 평가자가 ‘선호(Pre)’와 ‘비선호(Dispre)’를 순위 매긴다. 이후 Direct Preference Optimization(DPO) 알고리즘을 적용해 선호‑비선호 쌍을 정책 업데이트에 활용한다. DPO는 기존 RLHF와 달리 보상 모델을 별도로 학습하지 않아 효율적이며, 인간 선호를 직접 정책에 반영한다는 점이 핵심이다.
실험에서는 L2L‑trevor와 RealTalk 두 벤치마크에서 정량적 지표(예: 표현 적합도, 사회적 일관성)와 정성적 사용자 설문 모두에서 기존 최첨단 방법들을 앞섰다. 특히 감정 불일치(예: 화자 불쾌감에 청자가 행복을 표현) 상황에서 제안 모델은 인간 평가자가 가장 높은 일관성을 부여한 것으로 나타났다.
핵심 기여는 (1) 인간 피드백을 닫힌 루프 형태로 직접 정책에 통합한 최초의 얼굴 표정 생성 프레임워크, (2) 정체성‑독립 행동 공간을 설계해 편향 없는 피드백 수집을 가능하게 한 점, (3) 멀티모달 LLM을 활용해 텍스트·시각·음성 정보를 통합적으로 해석하고 행동을 생성한다는 점이다. 이 접근은 향후 인간‑컴퓨터 상호작용, 가상 아바타, 원격 협업 시스템 등에 폭넓게 적용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기