시각에서 촉각으로 자율주행차를 위한 동시합성 프레임워크
초록
본 논문은 시각 센서만으로 도로 표면에서 발생하는 진동·압력 등 촉각 정보를 예측하는 ‘Synesthesia of Vehicles(SoV)’ 체계를 제안한다. 영상‑촉각 정렬 알고리즘으로 시공간 차이를 보정하고, 잠재 확산 모델 기반의 VTSyn 생성기를 통해 고품질 촉각 신호를 합성한다. 실제 차량에서 수집한 다중 모달 데이터셋을 이용한 실험에서 RMSE, FID, freq‑ssim 등 다양한 지표에서 기존 GAN·VAE 기반 방법들을 크게 능가함을 입증한다.
상세 분석
SoV 프레임워크는 크게 네 단계로 구성된다. 첫째, 고해상도 ZED 2 카메라와 500 Hz 가속도 센서를 장착한 지능형 타이어를 이용해 시각‑촉각 동시 데이터를 수집한다. 여기서 중요한 점은 차량 위치·속도 정보를 실시간 RTK 모듈로 기록해, 이미지 프레임이 포착하는 앞 0.6 ~ 20 m 구간과 해당 구간을 통과할 때의 촉각 신호를 정확히 매핑한다는 것이다. 이를 위해 키프레임 추출, 목표 구간 표시, 위치 기반 시간 인덱싱, 그리고 가변 길이 촉각 시퀀스의 공간 보간을 수행하는 4‑step 정렬 파이프라인을 설계하였다.
둘째, 정렬된 (시각, 촉각) 쌍을 VAE‑기반 잠재 공간으로 압축한다. 촉각 인코더는 1‑D 컨볼루션 레이어와 1‑D 셀프‑어텐션을 결합해 장거리 시계열 의존성을 효과적으로 포착한다. 디코더는 전형적인 전치 컨볼루션 구조에 tanh 활성화를 적용해 원본 가속도 신호를 복원한다.
셋째, 시각 특징 추출기로 사전 학습된 ResNet‑18을 사용해 256 차원의 조건 벡터를 얻는다. 이 벡터는 잠재 확산 모델의 조건 입력(c)으로 활용된다. 확산 과정은 선형 β 스케줄(β_start = 1e‑4, β_end = 0.02, T = 1000) 하에 진행되며, U‑Net 기반 노이즈 예측 네트워크가 각 타임스텝 t에서 조건 c와 현재 노이즈 상태 x_t를 받아 노이즈 z_t를 추정한다. 역과정에서 추정된 노이즈를 제거함으로써 잠재 촉각 표현을 점진적으로 복원하고, 최종적으로 디코더를 통해 시간‑연속적인 가속도 파형을 생성한다.
넷째, 평가에서는 RMSE와 FID 외에 주파수 영역 유사도를 나타내는 freq‑ssim을 도입해 생성된 촉각 신호의 스펙트럼 특성을 정량화하였다. 실험 결과 VTSyn은 기존 Conditional‑GAN, Pix2Pix, MS‑VAE 등과 비교해 RMSE를 평균 27 % 감소시키고, FID를 35 % 낮추었으며, freq‑ssim에서도 0.92 이상의 높은 점수를 기록했다. 특히 야간·조도 변화가 큰 환경에서도 시각‑촉각 정렬이 정확히 이루어져, 모델이 조명 변화에 강인함을 보였다.
이러한 설계는 두 가지 중요한 시사점을 제공한다. 첫째, 시각 정보만으로도 도로‑타이어 상호작용을 사전에 예측함으로써, 촉각 센서가 없는 저가 차량에도 실시간 진동·미끄럼 감지를 가능하게 한다. 둘째, 잠재 확산 모델이 시계열 촉각 데이터의 복잡한 통계적 구조를 효과적으로 학습함을 보여, 향후 다른 물리‑신호(예: 소음, 온도)와의 교차 합성에도 확장 가능성을 시사한다. 다만, 현재는 전방 20 m 이내의 짧은 예측 범위에 국한되며, 고속 주행 시 시간 지연이 발생할 수 있다는 한계가 있다. 향후 고속 주행 데이터와 멀티‑스케일 시각 입력을 결합해 예측 범위를 확대하고, 실시간 제어 루프에 직접 통합하는 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기