효율적인 혼합전문가 기반 영상 운전자 상태·생리 신호 다중과제 추정 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 논문은 RGB 영상만을 이용해 운전자의 졸음, 인지 부하, 심박·호흡 등 생리 신호를 동시에 추정하는 경량 멀티태스크 모델 VDMoE를 제안한다. 핵심 얼굴 랜드마크와 눈·입 영역을 입력으로 사용하고, 색상 변화를 rPPG‑STMap으로 변환해 생리 정보를 보강한다. 이질적인 게이팅과 시공간 전문가 분리를 적용한 Mixture‑of‑Experts 구조와 인간 요인 기반 사전 정규화를 도입해 학습 효율과 일반화를 높였다. 42명 참여자·105 840초 영상으로 구성된 신규 데이터셋 MCDD와 공개 데이터셋을 활용한 실험에서 기존 CNN·Transformer 기반 모델 대비 정확도·연산량 모두 우수함을 입증한다.

상세 분석

**
VDMoE는 영상 기반 운전자 모니터링 시스템의 두 가지 핵심 과제—(1) 인지 부하와 졸음 같은 행동·심리 상태, (2) 심박수(HR)·호흡수(RR) 같은 생리 지표—를 하나의 네트워크에서 동시에 추정한다는 점에서 의미가 크다. 이를 위해 저자들은 먼저 얼굴 전체 영상을 그대로 사용하지 않고, 68개의 랜드마크와 눈·입 영역이라는 ‘키 포인트’만을 추출해 입력 차원을 크게 축소하였다. 이렇게 하면 프레임당 수십만 개의 픽셀을 처리하던 기존 방법에 비해 연산량이 10배 이상 감소한다.

생리 신호 추출을 위해서는 rPPG 기술을 적용했는데, RGB → YUV 색공간 변환 후 밴드패스 필터링을 수행해 피부 색상 변화만을 강조한다. 이후 일정 시간 구간을 STMap(시간‑공간 지도) 형태로 재구성해 MLP 기반 전문가 네트워크에 공급한다. 이때 STMap은 HR·RR 추정에 필요한 주기성을 보존하면서도 영상 흐름에 대한 복잡한 CNN 연산을 회피한다.

모델의 핵심 아키텍처는 Mixture‑of‑Experts(MoE)이다. 기존 MoE는 동일한 입력에 대해 여러 전문가를 가중합하는 방식이었지만, VDMoE는 ‘이질적 게이팅(hybrid gating)’을 도입해 영상 기반 특징과 STMap 기반 특징을 별도 라우팅한다. 또한 ‘시공간 전문가 분리(spatio‑temporal expert separation)’를 통해 영상의 정적 랜드마크와 동적 색변화 정보를 각각 전담하는 두 개의 MLP 전문가 집합을 구성한다. 이렇게 하면 각 전문가가 담당하는 태스크에 특화된 표현을 학습하면서도 전체 파라미터 수는 2‑layer MLP(≈ 256‑512 차원) 수준에 머문다.

학습 안정성을 높이기 위해 저자들은 ‘사전 포함 정규화(prior‑inclusive regularization)’를 설계했다. 인간 요인 연구에서 제시된 졸음·인지 부하의 확률 분포(예: 졸음 발생 확률은 0.1~0.3, 인지 부하는 작업 난이도에 따라 정규분포) 를 베이지안 사전으로 활용해, 모델 출력이 이 사전과 크게 벗어나지 않도록 KL‑다이버전스 기반 손실을 추가한다. 결과적으로 초기 학습 단계에서 과도한 과적합을 방지하고, 소수의 피험자 데이터에도 빠르게 수렴한다.

데이터 측면에서는 42명의 피험자를 대상으로 실제 운전 시뮬레이터에서 30분 이상 녹화한 MCDD 데이터셋을 구축했으며, 이는 RGB 영상과 동시에 심전도·호흡 센서(ground‑truth) 데이터를 제공한다. 공개된 DR(드로지)·UT A‑RLDD 등 두 개의 기존 데이터셋과도 교차 검증을 수행했다. 실험 결과, VDMoE는 졸음 검출 F1‑score 0.92, 인지 부하 예측 MAE 0.18, HR/RR 추정 RMSE 1.7/2.3 bpm 등 모든 지표에서 기존 CNN‑ResNet, Transformer‑ViT 기반 멀티태스크 모델을 능가했으며, 추론 시간은 GPU RTX 3080 기준 12 ms(≈ 80 FPS)로 실시간 적용이 가능했다.

종합하면, VDMoE는 (1) 입력 차원 축소와 STMap을 통한 효율적 생리 신호 추출, (2) 이질적 게이팅·전문가 분리를 활용한 MoE 구조, (3) 인간 요인 사전 정규화를 통한 학습 안정성이라는 세 축을 성공적으로 결합해, 레벨‑2/3 자동주행 차량에 적합한 경량·고성능 운전자 모니터링 솔루션을 제시한다.

효율적인 혼합전문가 기반 영상 운전자 상태·생리 신호 다중과제 추정 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기