시각언어 피드백으로 LLM 기반 eHMI 액션 설계 향상

시각언어 피드백으로 LLM 기반 eHMI 액션 설계 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

See2Refine은 비전‑언어 모델(VLM)의 자동 시각 평가를 피드백으로 활용해, 대형 언어 모델(LLM)이 생성한 외부 인간‑기계 인터페이스(eHMI) 행동을 인간 개입 없이 반복적으로 개선한다. 라이트바, 눈, 팔 세 가지 eHMI 형태와 다양한 LLM 규모에 대해 실험했으며, VLM 기반 점수가 인간 선호와 높은 일치를 보이며, 기존 프롬프트‑기반 설계와 수동 베이스라인을 모두 능가한다.

상세 분석

본 논문은 자동운전차량이 도로 이용자와 의사소통할 수 있는 외부 인간‑기계 인터페이스(eHMI)의 설계 자동화를 목표로 한다. 기존 연구는 개발자가 직접 정의한 메시지‑액션 쌍에 의존해 상황 변화에 대한 적응성이 낮았으며, LLM을 이용한 자동 설계도 텍스트 프롬프트에 한정돼 시각적 세부 정보를 충분히 반영하지 못한다. 이를 해결하기 위해 저자들은 ‘See2Refine’이라는 폐쇄형 피드백 루프를 제안한다. 핵심 아이디어는 VLM이 생성된 eHMI 행동 영상을 인간과 유사한 기준으로 평가하도록 하고, 그 점수를 보상 신호로 사용해 LLM(DesignerLLM)을 반복적으로 미세조정하는 것이다.

시나리오‑메시지 쌍은 6,912개의 조건을 조합해 생성하고, GPT‑4, Claude 3, Qwen 3 등 여러 초거대 LLM을 활용해 20,736개의 의도 메시지를 만든 뒤, 중복 제거와 다양성 확보를 위해 문장 변환기와 최장거리 샘플링을 적용한다. 이후 각 시나리오에 대해 두 개의 구조화된 액션 시퀀스를 LLM으로 생성하고, Blender 기반 파이프라인으로 3D 모델(라이트바, 눈, 팔)과 배경·카메라 각도·거리 등을 고려한 영상을 렌더링한다.

VLM 평가는 두 단계로 나뉜다. 1단계에서는 의도 메시지를 숨긴 채 ‘의도 인식’, ‘대상 지정’, ‘신뢰도’, ‘유사도’를 9점 척도로 평가해 인간이 처음 보는 상황에서의 직관적 이해도를 측정한다. 2단계에서는 의도 메시지를 공개하고 ‘사용자 수용도’와 ‘일관성’를 추가로 평가한다. 이 여섯 점수를 종합해 커널 스코어 K = (κ × s) + t + τ + u + c 로 정의하고, 이를 DesignerLLM의 보상으로 활용한다.

모델 미세조정은 Qwen2.5‑7B‑Instruct와 1.5B‑Instruct 두 규모를 사용해 진행한다. 각 라운드마다 중요도 기반 시나리오 샘플링을 적용해 개선 여지가 큰 상황을 우선 선택한다. 중요도 I_i는 최고·최저 스코어 차이, 평균 스코어, 기존 샘플링 횟수 등을 종합해 계산되며, 이를 정규화해 상위 20% 시나리오를 선택한다. 선택된 시나리오에 대해 새로운 액션을 생성·렌더링·VLM 평가 후, Direct Preference Optimization(DPO) 방식으로 DesignerLLM을 업데이트한다. 이 과정을 3라운드 반복해 점진적인 품질 향상을 달성한다.

실험 결과는 세 가지 eHMI 모달리티와 다양한 LLM 크기에 대해 일관되게 나타난다. VLM 기반 메트릭에서 See2Refine은 프롬프트‑전용 LLM보다 평균 12 %~18 % 높은 커널 스코어를 기록했으며, 인간 피험자 18명을 대상으로 한 주관적 평가에서도 동일하게 우수한 성능을 보였다. 특히 VLM 평점과 인간 평점 간의 상관계수(r)≈0.73으로, VLM이 인간 선호를 충분히 대체할 수 있음을 시사한다. 또한 액션 데이터베이스를 확장하면서도 품질 저하 없이 효율성을 유지하는 방법을 제시해, 대규모 시나리오에 대한 비용‑효율적인 확장이 가능함을 입증한다.

이 논문은 (1) VLM을 활용한 자동 피드백 루프 설계, (2) 형식‑인식 미세조정과 중요도 기반 샘플링을 결합한 효율적인 데이터 확장, (3) 인간 평가와 높은 일치도를 보이는 VLM 기반 메트릭 구축이라는 세 가지 주요 기여를 제공한다. 향후 연구에서는 실시간 차량 제어와 연계한 온라인 피드백, 다양한 환경(날씨·조명)에서의 일반화, 그리고 VLM 자체의 견고성 강화 등이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기