의미 기반 동적 시각 프로토타입 정제로 구성적 제로샷 학습
초록
Duplex는 텍스트 프롬프트로 만든 의미 프로토타입과, 시각적 특징을 해석해 만든 시각 프로토타입을 동시에 학습한다. 시각 프로토타입은 미니배치 내 로컬 그래프를 통해 동적으로 업데이트되며, 레이블이 없는 미지 조합도 학습 과정에 참여시킨다. 이를 통해 의미 프로토타입의 해석 가능성을 유지하면서 시각적 구분력을 강화하고, 기존 VLM 기반 CZSL에서 발생하던 ‘보여진 편향(seen bias)’을 완화한다. MIT‑States, UT‑Zappos, CGQA 등에서 폐쇄·개방 세계 설정 모두에서 경쟁력 있는 성능을 달성하였다.
상세 분석
Duplex는 기존 VLM 기반 CZSL 방법이 텍스트 중심의 프로토타입에 의존해 시각적 세부 정보를 충분히 반영하지 못한다는 두 가지 근본적인 한계를 정확히 짚어낸다. 첫 번째는 의미 프로토타입이 시각 공간에서 구분력이 낮아, 유사한 의미를 가진 조합(예: “흰색 셔츠” vs “밝은 셔츠”)을 구별하기 어렵다는 점이다. 두 번째는 학습 시 보지 못한 조합을 전혀 활용하지 못해, 모델이 보인 조합에 과도하게 편향되는 ‘seen bias’가 발생한다는 점이다. 이를 해결하기 위해 Duplex는 ‘이중 프로토타입(dual‑prototype)’ 구조를 도입한다. 의미 프로토타입은 CLIP 기반 프롬프트 튜닝으로 학습되어 전역적인 의미적 앵커 역할을 수행한다. 반면 시각 프로토타입은 관찰된 이미지에서 상태와 객체 특징을 명시적으로 분리(disentangle)한 뒤, 이들을 재조합(counter‑factual recombination)해 잠재적인 미지 조합의 시각 표현을 생성한다.
시각 프로토타입은 매 미니배치마다 구성되는 로컬 그래프에서 가벼운 GCN 메시지 패싱을 통해 동적으로 정제된다. 그래프 노드는 (1) 현재 배치에 포함된 실제 이미지 특징, (2) 상태·객체 별 분리된 특징, (3) 현재 시각 프로토타입 자체이며, 엣지는 의미 프로토타입에 의해 제시되는 의미적 일관성(consistency) 제약에 따라 가중된다. 이러한 로컬 그래프 기반 집계는 전역 그래프와 달리 계산 비용이 낮고, 클래스 간 불필요한 shortcut 연결을 억제해 intra‑class 변동성을 감소시키면서도 inter‑class 경계를 유지한다. 특히, 레이블이 없는 미지 조합도 그래프에 포함되어 시각 프로토타입이 간접적으로 그 정보를 흡수하게 되므로, 학습 단계부터 unseen 조합을 ‘활성’하게 다룰 수 있다.
Duplex는 의미 프로토타입을 고정된 앵커로 두어 해석 가능성을 보존하면서, 시각 프로토타입만을 반복적으로 미세 조정한다. 이는 의미‑시각 정합성을 유지하면서도 시각적 세부 특징을 반영한 결정 경계를 형성하게 만든다. 실험 결과, MIT‑States, UT‑Zappos, CGQA 등 세 가지 벤치마크에서 폐쇄 세계(closed‑world)와 개방 세계(open‑world) 모두에서 기존 최첨단 방법들을 능가하거나 동등한 성능을 보였다. 특히, ‘seen bias’를 정량적으로 측정한 지표에서 눈에 띄는 개선을 기록했으며, 시각 프로토타입의 클러스터링 품질이 향상된 것을 t‑SNE 시각화로 확인하였다.
이 논문의 주요 기여는 (1) CZSL에서 의미 프로토타입의 한계를 명확히 규정하고, (2) 의미‑시각 이중 프로토타입과 로컬 그래프 기반 동적 정제라는 새로운 프레임워크를 제시한 점, (3) 레이블이 없는 미지 조합을 학습에 포함시켜 seen bias를 효과적으로 완화한 점이다. 또한, 코드와 학습 파이프라인을 공개함으로써 향후 연구자들이 프로토타입 기반 CZSL을 확장하거나 다른 멀티모달 도메인에 적용하기 쉬운 기반을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기