Scene2Hap 장면 전체 진동 촉각 자동 생성 시스템
초록
Scene2Hap은 멀티모달 대형 언어 모델(LLM)을 활용해 VR 장면에 존재하는 모든 객체의 의미적 속성과 물리적 컨텍스트를 자동으로 추론하고, 이를 기반으로 실시간 진동형 촉각 피드백을 생성·전파한다. LLM 기반 촉각 추론과 물리 영감 렌더링을 결합해 설계 비용을 크게 낮추면서도 재질감과 공간 인식을 강화한다.
상세 분석
본 논문은 VR 환경에서 전통적으로 수작업에 의존하던 촉각 디자인 문제를 LLM과 물리 기반 모델링을 융합한 시스템으로 해결한다. 첫 단계인 “LLM‑Based Haptic Inference”에서는 씬 전체와 개별 객체에 대한 이미지, 이름, 크기, 높이 등 멀티모달 데이터를 자동 추출한다. 추출된 데이터는 네 개의 연쇄된 LLM 컴포넌트(씬 분석기, 객체 분석기, 재질 추정기, 진동 기술자)로 전달되어 객체의 진동 가능성, 재질 밀도, 탄성 등 물리적 파라미터를 텍스트 형태로 얻는다. 이 텍스트는 사전 학습된 멀티모달 LLM이 이미지와 텍스트를 동시에 이해하도록 설계돼, 단순 라벨링 오류를 보완하고 상황‑의존적인 의미(예: 냄비가 물에 담겨 있으면 진동한다, 캐비닛 안에 있으면 진동하지 않는다)를 정확히 파악한다.
다음 단계인 “Physics‑Inspired Haptic Rendering”에서는 LLM이 제공한 재질 파라미터와 객체 간 거리·접촉 그래프를 이용해 진동 전파와 감쇠를 물리적으로 모델링한다. 저자는 복잡한 구조 해석 대신 ‘플레이트’ 모델을 선택해, 재질의 밀도·탄성에 따라 감쇠 비율을 계산하고, 실시간으로 사용자의 터치 위치에 따라 진동 강도를 조절한다. 진동 신호는 먼저 적절한 오디오(생성 또는 검색)로 매핑된 뒤, 250 Hz 이하 저역통과 필터를 거쳐 실제 진동 장치에 전달된다. 이렇게 함으로써 동일한 진동원이 다른 재질 위에 놓였을 때 사용자에게 전달되는 촉각이 물리적으로 일관되게 변한다.
세 가지 사용자 연구를 통해 시스템의 두 핵심 기능을 검증한다. 첫 번째 연구는 LLM이 추론한 의미·재질 정보가 실제 물리적 특성과 얼마나 일치하는지를 평가했으며, 평균 85 % 이상의 정확도를 기록했다. 두 번째 연구는 진동 전파·감쇠가 포함된 조건이 사용자에게 재질감과 공간 인식을 크게 향상시켰으며, 주관적 몰입도 점수가 기존 방식 대비 1.3배 상승했다. 마지막 연구는 전체 파이프라인을 적용한 완전한 VR 씬에서의 체험을 평가했으며, 참가자들은 “보다 자연스럽고 일관된 촉각 피드백”을 가장 큰 장점으로 꼽았다.
핵심 기여는 (1) 멀티모달 LLM을 활용해 씬‑와 객체‑레벨의 의미·물리 정보를 자동 추출하는 파이프라인, (2) 추출된 정보를 기반으로 실시간 진동 전파·감쇠를 물리적으로 모델링하는 렌더링 기법, (3) 대규모 사용자 실험을 통한 실효성 입증이다. 이 접근은 향후 복잡한 VR·MR 환경에서 촉각을 기본적인 모달리티로 확장하는 데 중요한 토대를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기