누락된 모달리티를 위한 딥 멀티모달 학습 종합 조사
초록
본 논문은 멀티모달 학습에서 일부 센서·데이터가 결핍되는 상황을 다루는 최신 딥러닝 기법들을 체계적으로 정리한다. 저자들은 MLMM(멀티모달 학습 with Missing Modality)의 정의와 기존 멀티모달 학습과의 차이를 명확히 하고, 데이터 처리와 모델 설계 두 축을 기반으로 4가지 주요 카테고리(모달리티 임퓨테이션, 표현‑중심 모델, 아키텍처‑중심 모델, 모델 조합)로 분류한다. 각 방법의 원리, 대표 논문, 장·단점을 비교하고, 감성 분석, 의료, 로보틱스 등 다양한 응용 분야와 공개 데이터셋을 정리한다. 마지막으로 현재의 한계와 향후 연구 방향을 제시한다.
상세 분석
이 설문은 멀티모달 학습에서 “모달리티 결핍”이라는 현실적인 문제를 정량·정성적으로 파악한 점이 가장 큰 강점이다. 먼저 저자들은 MLMM을 “전체 N개의 모달리티가 항상 제공된다는 가정”을 버리고, 학습·추론 단계에서 임의의 부분집합이 누락될 수 있다는 시나리오를 명시한다. 이를 기반으로 제시된 두 축‑데이터 처리와 전략 설계‑은 기존 연구들을 자연스럽게 계층화한다. 데이터 처리 측면에서는 ‘모달리티 임퓨테이션’과 ‘표현‑중심 모델’로 구분한다. 전자는 결측 모달리티를 직접 복원하거나 대체하는 방법으로, 제로/랜덤 값, KNN 기반 샘플 복제, GAN·VAE·Diffusion 기반 생성 모델 등 구체적인 구현 방식을 제시한다. 특히, 제로/랜덤 대체는 베이스라인으로 널리 사용되지만, 정보 손실이 크다는 한계가 있다. 반면, 생성 기반 임퓨테이션은 데이터 분포를 학습해 보다 현실적인 보완을 제공하지만, 훈련 비용과 모달리티 간 정합성 확보가 어려운 점이 있다.
표현‑중심 모델은 모달리티 간 정렬·공통 잠재공간을 강제하거나, 가용 모달리티의 임베딩을 변환해 결측 모달리티를 추정한다. 좌표화(코디네이티드) 방식은 상호 보완성을 유지하면서도 손실 함수에 정규화 항을 추가해 견고성을 높인다. 그러나 고차원 텍스트·이미지·음성 등 이질적인 특성을 동일 공간에 매핑하는 과정에서 표현 충돌이 발생할 수 있다.
전략 설계 측면에서는 ‘아키텍처‑중심 모델’과 ‘모델 조합’으로 나뉜다. 아키텍처‑중심 모델은 어텐션, 지식 증류, 그래프 기반 융합, 대형 멀티모달 LLM 등으로 동적 모달리티 가중치를 학습한다. 어텐션 기반 방법은 결측 모달리티가 있을 때 자동으로 가중치를 재조정해 성능 저하를 최소화하지만, 어텐션 스코어 자체가 결측 정보에 의존하면 불안정해질 위험이 있다. 지식 증류는 전체 모달리티를 갖춘 ‘교사’ 모델에서 ‘학생’ 모델로 정보를 전달해 결측 상황에서도 성능을 유지한다는 장점이 있다. 그래프 학습은 모달리티 간 관계를 명시적으로 모델링해 결측 노드를 보완하지만, 그래프 구조 설계와 스케일링이 복잡하다. 최근 MLLM은 텍스트 프롬프트를 통해 다양한 모달리티를 하나의 시퀀스로 변환해 처리함으로써, 모달리티 수에 구애받지 않는 유연성을 제공한다.
‘모델 조합’은 전용 학습 스케줄러, 앙상블, 디스크리트 스케줄러 등을 활용해 상황별 최적 모델을 선택·조합한다. 이러한 방법은 개별 모델의 전문성을 유지하면서도 결측 상황에 대한 복원력을 확보한다. 다만, 모델 간 인터페이스 정의와 실시간 스위칭 비용이 실용적인 제약으로 작용한다.
전체적으로 저자들은 354편의 논문을 2012‑2025년 구간에서 체계적으로 수집·분류했으며, 각 카테고리별 대표 논문과 적용 분야를 표로 정리한다. 이는 연구자들이 현재 어떤 접근법이 어느 도메인에 적합한지 빠르게 파악할 수 있게 한다. 그러나 설문은 아직 ‘멀티모달 대규모 사전학습 모델’과 ‘연속적 결측 상황(시간에 따라 변하는 결측)’에 대한 심층 분석이 부족하고, 실시간 시스템에서의 연산 효율성 평가가 제한적이다. 이러한 점은 향후 연구 과제로 명시된다.
댓글 및 학술 토론
Loading comments...
의견 남기기