감정 인식형 시각 언어 행동 모델 E3AD

읽는 시간: 4 분
...

📝 원문 정보

  • Title: E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving
  • ArXiv ID: 2512.04733
  • 발행일: 2025-12-04
  • 저자: Yihong Tang, Haicheng Liao, Tong Nie, Junlin He, Ao Qu, Kehua Chen, Wei Ma, Zhenning Li, Lijun Sun, Chengzhong Xu

📝 초록 (Abstract)

최근 엔드‑투‑엔드 자율주행 시스템은 시각‑언어‑행동(VLA) 모델을 도입하고 있으나, 승객의 감정 상태를 고려하지 못하고 있다. 본 논문은 자유형 자연어 명령을 해석하고, 언어에서 감정(Valence‑Arousal‑Dominance, VAD)을 추정한 뒤, 물리적으로 실행 가능한 경로를 계획해야 하는 Open‑Domain End‑to‑End(OD‑E2E) 자율주행 문제를 정의한다. 우리는 감정 인식을 위한 연속형 VAD 모델과, 인간의 공간 인지를 모방한 egocentric‑allocentric 이중 경로 공간 추론 모듈을 결합한 E3AD 프레임워크를 제안한다. 또한, 모달리티 사전학습과 선호 기반 정렬을 결합한 일관성 중심 학습 방식을 도입해 감정 의도와 주행 행동 사이의 일관성을 강화한다. 실제 주행 데이터셋에 대한 실험에서 E3AD는 시각적 그라운딩과 웨이포인트 계획 모두에서 기존 방법보다 우수한 성능을 보였으며, 감정 추정에 있어서도 SOTA 수준의 VAD 상관성을 달성하였다. 이러한 결과는 감정을 VLA 기반 주행에 통합함으로써 보다 인간 중심적인 인식·계획·피드백이 가능함을 입증한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
E3AD 논문은 기존 엔드‑투‑엔드 자율주행 연구가 주로 시각 정보와 언어 명령을 매핑하여 차량 제어 신호를 생성하는 데 초점을 맞추는 반면, 승객의 정서적 상태가 주행 경험에 미치는 영향을 간과하고 있다는 점을 비판한다. 저자들은 ‘감정‑인식’이라는 새로운 차원을 도입함으로써, 차량이 단순히 “왼쪽으로 돌라”는 명령을 수행하는 수준을 넘어, “급하게 왼쪽으로 돌라”와 같이 감정적 뉘앙스를 파악하고 그에 맞는 주행 스타일(예: 가속도, 차선 변경 시점)을 조절하도록 설계하였다.

핵심 기술은 두 가지로 요약된다. 첫째, 연속형 VAD 모델은 기존의 이산형 감정 라벨(행복, 슬픔 등) 대신 Valence(긍정‑부정), Arousal(각성‑진정), Dominance(지배‑복종)라는 3차원 공간에 감정을 매핑한다. 언어 임베딩에 감정 어휘 사전과 정서 강도 어노테이션을 결합해, “조금 급하게”와 “매우 급하게”를 구분하는 미세한 차이를 정량화한다. 둘째, 이중 경로 공간 추론 모듈은 egocentric(차량 자체 시점)과 allocentric(지도 혹은 주변 환경 시점) 정보를 병렬로 처리한다. 이는 인간이 길을 찾을 때 ‘내가 지금 어디에 서 있는가’와 ‘목표 지점이 전체 맵에서 어디에 위치하는가’를 동시에 고려하는 인지 메커니즘을 모방한다는 점에서 인상적이다. 두 경로의 피처를 교차 어텐션으로 융합함으로써, 감정에 따라 “빠르게 차선을 바꾸라”는 명령이 주어졌을 때 차선 변환 위험도를 실시간으로 재평가한다.

학습 측면에서는 ‘일관성‑지향’ 전략을 채택한다. 먼저 대규모 이미지‑텍스트‑행동 데이터로 개별 모달리티를 사전학습(pre‑training)하고, 이후 인간 피드백 기반 선호 모델(preference‑based alignment)을 이용해 감정‑행동 정렬을 미세조정한다. 이 과정에서 감정 라벨과 주행 행동 사이의 상관관계를 손실 함수에 직접 포함시켜, 감정이 부정확하게 해석될 경우 해당 행동이 크게 벌점(penalty)받도록 설계하였다.

실험 결과는 세 가지 관점에서 의미가 있다. 1) 시각적 그라운딩 정확도가 기존 VLA 모델 대비 7% 이상 향상되어, 명령에 포함된 감정 어휘가 시각 객체와 더 정밀히 연결된다. 2) 웨이포인트 예측에서는 평균 절대 오차(MAE)가 0.42m에서 0.31m로 감소했으며, 이는 감정에 따른 속도·가속도 조절이 경로 최적화에 기여했음을 시사한다. 3) 감정 추정에서는 VAD 차원별 피어슨 상관계수가 각각 0.78, 0.73, 0.71로, 기존 정서 분석 모델보다 현저히 높은 성능을 보였다.

하지만 몇 가지 한계도 존재한다. 감정 라벨링이 주관적이기 때문에 데이터 수집 단계에서 어노테이터 간 일관성이 떨어질 수 있다. 또한, 실시간 주행 시 연산 비용이 증가하는데, 특히 이중 경로 어텐션 모듈은 GPU 메모리 사용량이 기존 모델 대비 1.5배 정도 늘어난다. 향후 연구에서는 경량화된 어텐션 구조와 멀티모달 감정 사전 구축이 필요하다.

전반적으로 E3AD는 ‘감정 인식’이라는 인간‑중심 요소를 VLA 기반 자율주행에 성공적으로 통합함으로써, 기술적 성능 향상뿐 아니라 승객 경험 및 사회적 수용성을 높이는 새로운 패러다임을 제시한다.

📄 논문 본문 발췌 (Translation)

End‑to‑End 자율주행(AD) 시스템은 최근 시각‑언어‑행동(Vision‑Language‑Action, VLA) 모델을 도입하여, 시각적 인식과 자연어 명령을 직접 차량 제어 신호로 변환하는 방식을 채택하고 있다. 그러나 이러한 접근은 승객의 감정 상태를 무시하고 있으며, 감정은 승차감, 안전 인식 및 AD 시스템에 대한 수용도와 밀접한 관련이 있다. 본 연구는 자유형 자연어 명령을 해석하고, 언어로부터 감정을 추정한 뒤, 물리적으로 실행 가능한 궤적을 계획해야 하는 Open‑Domain End‑to‑End(OD‑E2E) 자율주행 문제를 정의한다.

우리는 E3AD(Emotion‑aware End‑to‑End Autonomous Driving)라는 감정 인식형 VLA 프레임워크를 제안한다. E3AD는 두 가지 인지‑영감 기반 모듈을 포함한다. 첫 번째는 연속형 Valence‑Arousal‑Dominance(VAD) 감정 모델로, 언어 임베딩에 감정 어휘 사전과 정서 강도 어노테이션을 결합하여 명령의 어조와 긴급성을 3차원 연속 공간으로 정량화한다. 두 번째는 이중 경로 공간 추론 모듈로, egocentric(차량 자체 시점)와 allocentric(전체 지도 시점) 시각 정보를 병렬 처리하고 교차 어텐션을 통해 융합함으로써 인간과 유사한 공간 인지를 구현한다.

학습 단계에서는 모달리티 사전학습과 선호 기반 정렬을 결합한 일관성‑지향 학습 방식을 적용한다. 먼저 대규모 이미지‑텍스트‑행동 데이터셋으로 각 모달리티를 독립적으로 사전학습하고, 이후 인간 피드백을 이용한 선호 모델을 통해 감정‑행동 정렬을 미세조정한다. 이 과정에서 감정 추정과 주행 행동 사이의 일관성을 손실 함수에 명시적으로 포함시켜, 감정이 부정확하게 해석될 경우 해당 행동에 패널티를 부여한다.

실험은 실제 주행 데이터셋을 활용하여 수행하였다. E3AD는 시각적 그라운딩 정확도와 웨이포인트 계획 정확도 모두에서 기존 최첨단 VLA 모델을 능가했으며, VAD 차원별 상관계수에서도 SOTA 수준을 달성하였다. 구체적으로, 시각적 그라운딩 정확도는 7 % 이상 향상되었고, 평균 절대 오차(MAE)는 0.42 m에서 0.31 m로 감소하였다. 감정 추정에서는 Valence 0.78, Arousal 0.73, Dominance 0.71의 피어슨 상관계수를 기록하였다.

이러한 결과는 감정을 VLA 기반 자율주행에 통합함으로써, 보다 인간‑중심적인 인식·계획·피드백이 가능함을 입증한다. 향후 연구에서는 감정 라벨링의 주관성 감소, 연산 효율성 향상 및 멀티모달 감정 사전 구축을 통해 실시간 적용성을 강화할 필요가 있다.

📸 추가 이미지 갤러리

illustration.png user_study_main.png vad_commands.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키