균형 잡힌 다중모달 3D 인간 자세 추정을 위한 새로운 학습 프레임워크
초록
본 논문은 RGB, LiDAR, mmWave 레이더, WiFi CSI 네 가지 센서를 결합한 3D 인간 자세 추정 모델을 제안한다. 각 모달리티의 기여도를 Shapley 값과 Pearson 상관계수를 이용해 정량화하고, Fisher Information Matrix 기반의 적응형 가중치 제약(AWC) 손실로 학습 초기에 우세 모달리티의 업데이트를 억제해 모달리티 불균형을 해소한다. MM‑Fi 데이터셋에서 기존 방법 대비 MPJPE를 크게 감소시켰으며, 추가 파라미터 없이 균형 잡힌 다중모달 학습을 구현한다.
상세 분석
이 연구는 3D 인간 자세 추정이라는 회귀 문제에 다중모달 센서를 효과적으로 통합하기 위해 두 가지 핵심 메커니즘을 도입한다. 첫 번째는 Shapley 값 기반 기여도 평가이다. 전통적인 Shapley 값은 분류에서 교차 엔트로피를 손실로 사용하지만, 회귀에서는 MSE·MAE가 출력 규모에 민감해 왜곡을 일으킨다. 저자들은 이를 보완하기 위해 배치 차원에서 각 관절 좌표와 예측값 사이의 Pearson 상관계수를 손실 함수 s(·,·)로 정의한다. 이렇게 하면 모달리티가 예측에 미치는 실제 상관성을 반영해 기여도를 공정하게 측정한다.
두 번째 메커니즘은 Fisher Information Matrix(FIM)를 활용한 Adaptive Weight Constraint(AWC) 손실이다. FIM은 파라미터별 기대 제곱 그래디언트로, 학습 초기에 우세 모달리티가 큰 그래디언트를 발생시키면 해당 파라미터의 FIM 값이 크게 된다. AWC는 초기 파라미터와 현재 파라미터 사이의 L2 차이를 FIM 가중치로 스케일링해 손실에 추가함으로써, 우세 모달리티의 파라미터 업데이트를 강하게 억제하고, 열등 모달리티는 상대적으로 자유롭게 학습하도록 만든다.
또한, Shapley 점수를 K‑Means 클러스터링하여 “우수”와 “열등” 모달리티 집합을 구분하고, 각각에 α_S, α_I 라는 서로 다른 정규화 계수를 부여한다. 이는 학습 과정에서 동적으로 균형을 맞추는 역할을 한다. 모델 구조는 각 모달리티별 인코더 → 특징 결합(Concat) → 회귀 헤드 형태이며, 추가적인 유니모달 헤드나 파라미터를 도입하지 않아 복잡도가 크게 증가하지 않는다.
실험에서는 MM‑Fi 데이터셋을 사용해 기본 멀티모달 파이프라인 대비 MPJPE를 평균 5~7% 개선했으며, Shapley만 적용, AWC만 적용, 두 기법을 결합한 경우 각각의 기여도를 정량적으로 입증한다. 한계점으로는 Shapley 값 계산이 조합 수에 따라 지수적으로 복잡해질 수 있어 근사화가 필요하다는 점, Pearson 상관계수가 잡음에 민감할 수 있다는 점, FIM 추정이 미니배치 규모에 따라 변동성이 크다는 점을 들 수 있다. 향후에는 효율적인 Shapley 근사와 더 안정적인 FIM 추정 방법을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기