멀티모달 비일상 상식 추론: 이상과 일상의 연결 고리
초록
MUN은 시각·텍스트가 의도적으로 어긋나는 상황에서 모델이 비일상적 결과를 일상적으로 설명하거나, 일상적 장면에 숨은 비일상적 의미를 찾아내는 능력을 평가한다. MER 기반 R‑ICL을 통해 작은 모델이 큰 모델의 추론을 전이받아 평균 8.3% 성능 향상을 달성한다.
상세 분석
본 논문은 기존 멀티모달 상식 벤치마크가 주로 빈번하고 전형적인 상황에 초점을 맞춘 반면, 실제 현장에서는 시각적·언어적 신호가 종종 불일치하거나 문화·맥락에 따라 드물게 나타나는 경우가 많다는 점을 지적한다. 이를 해결하기 위해 저자들은 ‘Multimodal UNcommonsense (MUN)’이라는 새로운 데이터셋을 구축하였다. MUN은 두 가지 하위 과제로 구성된다. 첫 번째인 MUN‑vis는 ‘비일상적 이미지 → 일상적 결과’ 형태로, 시각적으로 이상해 보이는 사진(예: 검게 탄 바나나)과 그에 대한 일반적인 결과(바나나 빵을 즐김)를 제시하고, 모델이 그 연결 고리를 설명하도록 요구한다. 두 번째인 MUN‑lang은 ‘일상적 이미지 → 비일상적 결과’ 형태로, 평범한 장면(벤치 위의 백팩)과 예상치 못한 결과(체포)를 매칭시켜 숨겨진 원인(가방에 마약이 몰래 투입됨)을 추론하도록 만든다. 이러한 양방향 구조는 모델이 ‘왜 이런 결과가 나왔는가’를 양쪽에서 탐색하도록 강제한다는 점에서 기존 일방향 추론 데이터와 차별화된다.
데이터 구축 과정에서도 흥미로운 설계가 돋보인다. 텍스트 시나리오는 GPT‑4o를 활용해 다양하게 생성하고, Bing 이미지 검색을 통해 실제 사진을 매칭한다. 인간 annotator 26명이 직접 설명을 작성했으며, 이후 LLM(GPT‑4o)으로 보강해 인간·LLM 혼합 설명을 만든다. 이는 인간의 다양성과 LLM의 정확성을 동시에 확보하려는 시도이다.
핵심 기술인 Retrieval‑based In‑Context Learning (R‑ICL)은 큰 모델이 생성한 고품질 예시를 작은 모델에 제공함으로써 추가 학습 없이 성능을 끌어올린다. 여기서 특별히 제안된 Multimodal Ensemble Retriever (MER)는 이미지와 텍스트 각각에 대해 독립적인 유사도 점수를 계산하고, 가중치 조절을 통해 두 모달리티가 의도적으로 어긋나는 상황에서도 의미 있는 예시를 찾아낸다. 기존 크로스모달 검색기가 강한 정렬을 전제로 하는 반면, MER는 ‘비정렬’ 특성을 수용하도록 설계돼 MUN의 특수성을 잘 반영한다.
실험 결과, MER‑R‑ICL은 랜덤 베이스라인 대비 평균 8.3%의 win rate 상승을 보였으며, 특히 저빈도·문화적 특수 상황에서 큰 폭의 개선을 기록했다. 이는 작은 VLM(예: CLIP‑based 모델)도 적절한 예시를 제공받으면 비일상적 추론 능력이 크게 향상될 수 있음을 증명한다.
한계점으로는 이미지 선택이 수동 검토에 의존해 규모 확장이 어려울 수 있고, ‘비일상성’의 정의가 주관적이라 평가 기준이 모호할 가능성이 있다. 또한 MER의 가중치 튜닝이 데이터셋마다 재조정이 필요할 수 있다. 향후 자동화된 이미지‑텍스트 매칭과 보다 정량적인 비일상성 측정 지표 개발이 요구된다.
전반적으로 MUN은 멀티모달 상식 추론의 새로운 평가 차원을 제시하고, R‑ICL과 MER를 통한 효율적인 지식 전이 방법을 입증함으로써, 문화·맥락 다양성을 포괄하는 견고한 AI 시스템 구축에 중요한 발판을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기