ExpAlign 기대 기반 비전 언어 정렬을 통한 열린 어휘 그라운딩

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ExpAlign은 다중 인스턴스 학습(MIL) 기반의 기대 정렬 헤드를 도입해 토큰‑레벨 시각‑언어 매칭을 암묵적으로 수행한다. 토큰별 유사도에 소프트맥스 가중치를 부여하고 기대값을 취해 공간 정렬 맵을 생성하며, 다중 스케일 일관성 정규화와 Top‑K 다중‑양성 InfoNCE, 기하학적 일관성 손실을 결합해 학습 안정성을 높인다. LVIS, ODinW, RefCOCO 등에서 기존 최첨단 방법을 능가하는 성능을 기록한다.

상세 분석

ExpAlign은 열린 어휘 그라운딩에서 흔히 발생하는 “글로벌 텍스트 임베딩이 세밀한 의미를 포착하지 못한다”는 문제를 근본적으로 해결한다. 핵심은 Expectation Alignment Head(EAH)이다. 이미지 피처 맵 F 과 텍스트 토큰 T 의 내적을 통해 위치 (x, y) 와 토큰 l 간의 유사도 S(x,y,l) 을 구하고, 전체 공간에 대해 평균 풀링해 토큰별 전역 중요도 (\bar S(l)) 를 얻는다. 이후 소프트맥스 온도 τₜ 를 적용해 토큰 posterior π(l) 을 계산하고, 이 가중치를 다시 원본 유사도에 곱해 기대값 (\tilde S(x,y)=\sum_l π(l)S(x,y,l)) 을 만든다. 즉, 토큰별 가중치가 자동으로 학습되며, 불필요하거나 잡음이 많은 토큰은 억제된다. 이 과정은 MIL에서의 soft‑pooling과 동일한 수학적 형태를 가지므로, 각 공간 위치를 인스턴스로, 텍스트 프롬프트를 bag으로 보는 다중 인스턴스 학습 이론에 정당성을 부여한다.

정렬 맵을 다중 스케일에서 생성한 뒤, 두 가지 정규화 손실을 적용한다. 첫 번째는 Semantic Consistency 손실로, 모든 스케일의 맵을 가장 낮은 해상도(P5)로 다운샘플링 후 평균해 통합한다. 통합 맵에서 Top‑1 % 영역을 선택하고, 해당 영역의 평균 점수를 ℓ 으로 정의한다. 다중‑양성 InfoNCE는 각 이미지‑프롬프트 쌍에 대해 ℓ 을 양성 샘플로, 같은 이미지 내 다른 프롬프트를 음성 샘플로 사용해 (\exp(ℓ/τ)) 비율을 최대화한다. 이는 프롬프트 레벨에서의 의미적 구분을 강화한다.

두 번째는 Geometry‑Aware Consistency Objective(GACO)이다. 고해상도(P3)까지 업샘플링한 통합 맵 (\tilde S_{up}) 에 대해 모든 프롬프트와 위치에 softmax를 적용해 확률 (P(p,i)) 를 얻는다. 각 프롬프트에 대응하는 실제 마스크 M(p) 내에서 시그모이드 변환 (R(p,i)=σ(\tilde S_{up}(p,i))) 의 평균 μ와 표준편차 σ를 계산하고, 정규화된 상대 일관성 점수 (A(p,i)=\text{clip}((R-μ)/σ,,-c,c)) 를 만든다. 최종 GACO는 (A(p,i)\log P(p,i)) 의 기대값을 최소화함으로써, 같은 객체 내부의 위치들이 서로 유사한 확률을 갖도록 유도한다. 이 손실은 절대적인 좌표 제약이 아니라, 인스턴스 내부의 상대적 기하학적 일관성을 강조한다는 점에서 기존의 절대형 정규화와 차별화된다.

학습 단계에서는 검출/세그멘테이션 기본 손실 (L_{det/seg}) 에 λₛₑₘ · (L_{sem}) 와 λ_{geo} · (L_{geo}) 를 가중합한다. 추론 시에는 정렬 헤드와 정규화 모듈이 제거되므로, 기존 검출 파이프라인과 동일한 속도와 메모리 요구사항을 유지한다.

실험에서는 DINOv3‑ConvNeXt‑T 백본을 사용하고, LVIS minival 에서 AP_r 36.2를 달성해 동일 규모의 최신 방법들을 앞섰다. 특히 장기 꼬리 카테고리와 복합적 언어 표현(예: 부정, 관계)에서 강인한 성능을 보였다. Ablation 연구는 토큰 기대 가중치 없이 단순 평균 풀링을 사용할 경우 AP가 크게 떨어짐을 확인했으며, GACO 없이 Top‑K InfoNCE만 적용해도 성능이 감소함을 보여 정규화의 상호 보완성을 입증한다. 전체적으로 ExpAlign은 토큰‑레벨 정렬을 암묵적으로 학습하면서도 경량 구조와 추론 효율성을 동시에 달성한 점이 가장 큰 강점이다.

ExpAlign 기대 기반 비전 언어 정렬을 통한 열린 어휘 그라운딩

초록

상세 분석

댓글 및 학술 토론

의견 남기기