도메인 특성을 활용한 언어 기반 도메인 일반화 세그멘테이션

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 단일 소스 데이터만을 이용하는 도메인 일반화 시맨틱 세그멘테이션(DGSS)에서, Vision‑Language Model(VLM)의 텍스트 프롬프트를 이미지의 도메인 특성에 맞게 동적으로 변환하는 DPMFormer 프레임워크를 제안한다. 도메인‑인식 프롬프트 학습, 텍스처 교란을 통한 가상 도메인 생성, 도메인‑인식 대비 학습 및 일관성 손실을 결합해 시각·언어 간 의미 정렬을 강화하고, 다양한 환경 변화에 강인한 모델을 구축한다. 실험 결과 BDD100K, Cityscapes 등 여러 DGSS 벤치마크에서 최첨단 성능을 달성한다.

상세 분석

DPMFormer는 Mask2Former 구조를 기반으로 하면서, CLIP‑ 기반 이미지·텍스트 인코더를 그대로 활용한다. 핵심 아이디어는 “도메인‑인식 프롬프트”를 이미지의 전역 특징(클래스 토큰)으로부터 추출한 임베딩 πₓ를 기존 학습 가능한 컨텍스트 프롬프트 p와 더해, 텍스트 인코더에 입력함으로써 각 클래스에 대한 텍스트 표현 tₓ,ₖ를 동적으로 변환한다. 이렇게 하면 동일 클래스라도 밤, 비, 눈 등 다양한 도메인에서 시각적 특성이 반영된 텍스트가 생성돼, VLM이 제공하는 풍부한 의미 정보를 실제 이미지와 더 잘 정렬한다.

도메인 다양성을 확보하기 위해 저자들은 강한 색상 jitter, Gaussian blur, 노이즈 삽입 등 구조를 보존하는 포토메트릭 변환을 적용해 “텍스처 교란” 이미지 x′를 만든다. 원본 x와 교란 x′를 동시에 배치에 포함시켜, 두 종류의 이미지에 대해 동일한 프롬프트 π를 학습하도록 도메인‑인식 대비 학습(L_contra)을 설계한다. 식 (1)은 같은 도메인(양쪽 모두 원본 혹은 모두 교란)에서 추출된 프롬프트 간 유사성을 높이고, 서로 다른 도메인 간 유사성은 낮추도록 하는 대조 손실이다. 이는 프롬프트가 실제 도메인 특성을 반영하도록 강제한다.

또한, 모델의 출력이 도메인 변동에 민감하지 않도록 “도메인‑강인 일관성 학습”을 도입한다. 클래스 일관성 손실은 원본·교란 이미지 쌍의 클래스 예측 ĉ 를 L2 혹은 KL 형태로 정합하고, 마스크 일관성 손실은 픽셀‑레벨 마스크 ŷ̂ₘₐₛₖ 를 동일하게 유지하도록 한다. 이 두 손실은 트랜스포머 디코더의 모든 레이어에 적용돼, 초기 레이어에서 발생하는 도메인 편향이 후속 레이어로 전파되는 것을 억제한다.

실험에서는 GTAV를 소스 도메인으로 사용하고, BDD100K, Cityscapes, Mapillary 등 다양한 타깃 도메인에 대해 mIoU와 mAcc를 평가했다. DPMFormer는 기존 VLM‑기반 DGSS 방법(TQDM, DAP 등) 대비 평균 2~4%p의 성능 향상을 보였으며, 특히 야간·비·눈 등 극단적 조명·기상 조건에서 큰 격차를 메우는 것이 확인되었다. Ablation study에서는 (1) 도메인‑인식 프롬프트 없이 고정 프롬프트만 사용할 경우 성능이 급격히 떨어짐을, (2) 텍스처 교란 없이 원본 데이터만 사용할 경우 대비 학습 효과가 감소함을, (3) 일관성 손실을 제외하면 교란 이미지에 대한 예측 불안정성이 크게 증가함을 각각 입증한다.

요약하면, DPMFormer는 (i) 이미지 기반 도메인 특성을 텍스트 프롬프트에 직접 주입해 시각·언어 정렬을 강화하고, (ii) 인위적 텍스처 변형과 대비 학습으로 단일 소스 환경에서도 다양한 도메인 특성을 학습하며, (iii) 다층 일관성 손실로 모델 전반에 걸친 도메인 강인성을 확보한다는 세 가지 혁신적인 메커니즘을 결합한다. 이러한 설계는 VLM을 DGSS에 적용할 때 발생하던 “프롬프트 고정성”과 “시각·언어 의미 불일치” 문제를 근본적으로 해결한다는 점에서 학술적·실용적 의의가 크다.

도메인 특성을 활용한 언어 기반 도메인 일반화 세그멘테이션

초록

상세 분석

댓글 및 학술 토론

의견 남기기