언어를 도메인 불변 브리지로 활용한 훈련‑무료 원샷 도메인 일반화 객체 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 한 개의 라벨링된 예시만으로도 사전 학습된 검출기를 전혀 미세조정하지 않고 특수 도메인(수중·산업 결함)에서 바로 적용할 수 있는 “훈련‑무료 원샷 도메인 일반화” 문제를 정의한다. 제안 방법 LAB‑Det은 예시 이미지를 SAM으로 자르고 Describe‑Anything‑Model(DAM)으로 자연어 설명을 생성한 뒤, 이 설명을 텍스트 프롬프트로 사용해 고정된 Grounding DINO와 BLIP을 조건화한다. 언어 기반 프롬프트가 시각적 스타일 차이를 추상화함으로써, 파라미터 업데이트 없이도 mAP를 최대 5.4 점 향상시킨다.

상세 분석

LAB‑Det의 핵심 아이디어는 “언어는 도메인 불변성의 매개체”라는 가정이다. 기존의 교차‑도메인 소수샷 검출은 시각적 피처를 미세조정하거나 대량의 비라벨링 데이터를 활용해 도메인 적응을 시도한다. 그러나 1‑shot 수준에서는 과적합 위험이 크고, 비용도 많이 든다. LAB‑Det은 이를 회피하기 위해 두 단계의 언어‑시각 연결 고리를 만든다. 첫 번째 단계에서 지원 이미지와 바운딩 박스를 SAM(세그멘테이션‑어드보케이션 모델)에 입력해 정확한 객체 마스크를 얻고, 이를 DAM에 전달해 “길고 얇은 어두운 회색 스트릭, 거친 질감, 불규칙한 가장자리”와 같은 상세 설명을 생성한다. 이 설명은 단순 클래스명보다 풍부한 속성(형태, 색, 질감 등)을 포함하므로, 도메인 특유의 색상 왜곡이나 조명 변화에 강인하다.

두 번째 단계에서는 이 다중 구문 집합을 Grounding DINO의 텍스트 프롬프트로 사용한다. DINO는 텍스트‑이미지 정렬을 사전 학습했기 때문에, 각 구문에 대한 매칭 점수를 박스‑구문‑카테고리 3차원 텐서로 출력한다. 논문은 구문별 점수를 평균해 카테고리 점수를 산출함으로써, 하나의 구문이 실패해도 다른 구문이 보완하도록 설계했다. 이는 특히 수중 이미지처럼 색상 정보가 불안정한 상황에서 효과적이다.

추가로, 작은 객체나 경계가 모호한 경우 BLIP을 이용해 이미지‑텍스트 정합도를 재계산하는 “선택적 점수 보정”을 적용한다. BLIP은 이미지와 텍스트 사이의 의미적 일치를 평가하므로, DINO가 놓친 미세 객체를 회복할 수 있다. 전체 파이프라인은 파라미터를 전혀 업데이트하지 않으며, 오직 언어 프롬프트와 사전 학습된 모델 호출만으로 동작한다.

실험은 두 개의 데이터‑희소 벤치마크인 UODD(수중 생물)와 NEU‑DET(산업 결함)에서 수행되었다. 기존 최첨단 CD‑FSOD 방법들은 1‑shot 지원만으로는 성능이 급락했지만, LAB‑Det은 mAP 기준으로 각각 평균 3.8점, 5.4점 향상을 기록했다. 이는 언어 기반 적응이 시각적 도메인 차이를 효과적으로 추상화한다는 강력한 증거다. 또한, 파라미터 업데이트가 없으므로 추론 비용이 낮고, 프롬프트가 인간에게 해석 가능하다는 점에서 실용성도 높다.

한계점으로는 (1) DAM과 SAM이 사전 학습된 모델에 의존하므로, 이들 모델이 지원 도메인에 전혀 적합하지 않을 경우 설명 품질이 저하될 수 있다. (2) 프롬프트 생성 과정이 이미지당 추가 연산을 요구하므로 실시간 응용에는 최적화가 필요하다. 향후 연구는 자동 프롬프트 최적화, 다중‑도메인 프롬프트 풀 구축, 그리고 텍스트‑이미지 정렬 모델의 도메인‑특화 파인튜닝 없이도 더 높은 정밀도를 달성하는 방안을 탐색할 수 있다.

언어를 도메인 불변 브리지로 활용한 훈련‑무료 원샷 도메인 일반화 객체 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기