깊이와 언어를 활용한 오픈보카뷸러리 도메인 일반화 시맨틱 분할

깊이와 언어를 활용한 오픈보카뷸러리 도메인 일반화 시맨틱 분할
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각 기반 대형 사전학습 모델(VFM)과 깊이 예측 모델을 결합해, 보지 못한 도메인과 보지 못한 클래스에 대해 픽셀 수준의 마스크를 생성하는 오픈보카뷸러리 도메인 일반화 시맨틱 분할(OV‑DGSS) 프레임워크 Vireo를 제안한다. 핵심은 (1) GeoText Prompt를 통한 기하‑언어 정렬 및 VFM 인코더 단계별 정제, (2) Coarse Mask Prior Embedding(CMPE)으로 그래디언트 흐름 강화, (3) Domain‑Open‑Vocabulary Vector Embedding Head(DOV‑VEH)로 구조와 의미를 융합하는 세 가지 모듈이다. 실험 결과 Vireo는 다양한 악천후·야간·도시 변형 데이터셋에서 기존 최첨단 방법들을 크게 앞선 성능을 보이며, 오픈보카뷸러리 인식과 도메인 강인성을 동시에 달성한다.

상세 분석

Vireo는 “Frozen‑VFM + Frozen‑Depth”라는 두 개의 고정된 백본을 기반으로 설계되었다. VFM은 CLIP 기반의 시각 사전학습 모델로, 다양한 도메인에서 강인한 특징을 제공하지만, 도메인 편향을 완전히 없애지는 못한다. 반면 DepthAnything V2는 사전학습된 깊이 예측 모델로, 조명·텍스처 변화에 민감하지 않은 기하 정보를 제공한다. 이러한 두 백본을 동시에 활용함으로써 Vireo는 RGB 이미지의 색·텍스처 정보와 깊이의 구조 정보를 상보적으로 결합한다.

GeoText Prompt는 VFM 인코더의 여러 레이어에 삽입되는 학습 가능한 프롬프트이다. 각 레이어마다 텍스트 임베딩(t_k)과 깊이 특징(f_D^l)을 함께 입력받아 교차‑어텐션을 수행한다. 이 과정에서 (1) 깊이 기반 기하적 힌트가 텍스트 의미와 정렬되고, (2) 텍스트 프롬프트가 VFM 내부 표현을 단계별로 미세 조정한다. 결과적으로 VFM의 고정된 파라미터에도 불구하고, 도메인 변동에 강인한 특징이 점진적으로 형성된다.

CMPE는 디코더 진입 직전에 적용되는 모듈로, 선택된 네 개의 레이어(8,12,16,24)에서 추출된 시각 특징을 업샘플링 후 Adaptive Attention Gate(AAG)으로 채널·공간 어텐션을 강화한다. 이렇게 정제된 특징을 하나의 coarse feature f_M에 통합하고, 텍스트 임베딩과 내적하여 coarse mask M을 생성한다. M은 두 가지 역할을 수행한다. 첫째, 손실 함수에 직접 포함돼 frozen encoder에 대한 그래디언트를 강화한다(gradient‑boosting effect). 둘째, 클래스별 어텐션 가중치 α_k를 통해 클래스별 집계 특징 f_class^k를 추출하고, 이를 기반으로 query prior를 만든다. 이 prior는 이후 DOV‑VEH에 전달돼 최종 마스크 예측에 영향을 미친다.

DOV‑VEH는 픽셀 디코더와 트랜스포머 디코더로 구성된다. 픽셀 디코더는 다중 스케일 특징을 고해상도 형태로 복원하고, 트랜스포머 디코더는 위치 임베딩과 함께 GeoText Prompt 및 CMPE에서 생성된 query prior를 입력받아 cross‑attention을 수행한다. 최종적으로 픽셀‑레벨 마스크 임베딩 E_mask(x,y)와 클래스‑레벨 임베딩 E_cls(k)를 얻고, 이들의 내적으로 최종 시맨틱 마스크 ˆM을 산출한다. 이 구조는 (i) 깊이‑텍스트 정렬을 통해 얻은 구조적 힌트를 유지하면서, (ii) 텍스트 프롬프트가 제공하는 오픈보카뷸러리 정보를 충분히 활용한다는 점에서 기존 OVSS 혹은 DGSS 파이프라인을 능가한다.

실험에서는 Cityscapes 기반 학습 후 Night‑ACDC, Fog‑ACDC, Rain‑ACDC, Snow‑ACDC, BDD100k, Mapillary 등 다양한 도메인·조건에서 평가하였다. Vireo는 평균 mIoU 기준 4~7%p(percentage points) 정도 기존 최첨단 방법을 앞섰으며, 특히 야간·안개·눈과 같은 극한 조명 조건에서 눈에 띄는 성능 향상을 보였다. 이는 깊이 기반 구조 정보가 조명 변동에 강인함을 입증한다. 또한, “a street lined with {cars}”와 같은 텍스트 쿼리에 대해 정확히 해당 객체를 마스크하는 능력을 보여, 오픈보카뷸러리 인식 능력도 검증되었다.

한계점으로는 (1) 깊이 예측이 완전히 정확하지 않은 경우(예: 반사면·투명 물체) 구조‑텍스트 정렬이 오히려 잡음이 될 수 있다. (2) 프롬프트 수와 레이어 선택에 대한 민감도가 존재해, 최적의 하이퍼파라미터 탐색이 필요하다. 향후 연구에서는 (i) 멀티‑모달 어텐션을 더 깊게 설계해 깊이 오류에 대한 로버스트성을 강화하고, (ii) 비지도 도메인 적응 기법과 결합해 완전한 무라벨 도메인에서도 성능을 유지하는 방향을 제시한다.

요약하면, Vireo는 “Frozen‑VFM + Frozen‑Depth + 학습 가능한 GeoText Prompt + CMPE + DOV‑VEH”라는 5‑요소 설계로, 시각‑언어‑기하 3가지 모달리티를 효율적으로 통합해 오픈보카뷸러리 도메인 일반화 시맨틱 분할이라는 새로운 문제 설정을 성공적으로 해결한다.


댓글 및 학술 토론

Loading comments...

의견 남기기