제로샷 객체 카운팅을 위한 다단계 예시 선택 프레임워크
초록
CountZES는 사전 학습된 비전‑언어 모델과 세그멘테이션 모델을 고정한 채, 텍스트 프롬프트만으로 보이지 않는 클래스의 객체 수를 추정한다. 검출‑기반, 밀도‑가이드, 특징‑합의의 세 단계에서 각각 단일 인스턴스 예시를 추출해 상호 보완적인 예시 집합을 만든 뒤, 이를 기반으로 밀도 맵을 생성해 최종 카운트를 얻는다. 인퍼런스 전용 파이프라인임에도 불구하고 다양한 자연·항공·의료 데이터셋에서 기존 제로샷 카운팅 방법들을 크게 앞선다.
상세 분석
CountZES는 제로샷 객체 카운팅(ZOC) 문제를 “예시 선택 → 밀도 추정 → 카운트”라는 명확한 흐름으로 재구성한다. 첫 번째 단계인 Detection‑Anchored Exemplar(DAE)에서는 GroundingDINO와 CLIP 유사도 맵을 결합해 후보 박스를 스코어링한다. 여기서 박스 내부의 CLIP 유사도 분포 엔트로피를 계산해 다중 객체나 배경이 섞인 박스를 억제하고, 높은 신뢰도와 낮은 엔트로피를 동시에 만족하는 박스를 선택한다. 선택된 박스는 Sim‑guided SAM‑based Exemplar Selection(SSES) 모듈에 전달되는데, 이 모듈은 박스 내부에서 상위 퍼센타일 기준으로 피크를 추출하고, 각 피크를 SAM에 긍정 프롬프트로 넣어 마스크를 생성한다. 마스크는 평균 퍼센타일 유사도와 엔트로피를 조합한 점수로 평가돼 최종 DAE 예시가 된다.
두 번째 단계인 Density‑Guided Exemplar(DGE)는 DAE 예시를 조건으로 밀도 추정기를 실행한다. 생성된 밀도 맵에서 Peak‑to‑Point(P2P) 프롬프트를 이용해 후보 피크를 찾고, 각 피크에 대해 RoI‑based 단일 인스턴스 필터링을 수행한다. 여기서는 가짜 GT(예: 밀도 맵에서의 지역 최대값)를 활용해 후보 예시의 카운트 일관성을 검증하고, 가장 일관된 예시를 Pseudo‑GT Guided Exemplar Selection(GGES)으로 확정한다. 이 과정은 “통계적 신뢰성”을 확보함으로써 텍스트 기반 정합성만으로는 놓칠 수 있는 시각적 변동성을 보완한다.
세 번째 단계인 Feature‑Consensus Exemplar(FCE)는 SAM의 고차원 특징 맵에 DGE 후보들을 투사한다. Feature‑based Representative Exemplar Selection(FRES)은 K‑means와 같은 클러스터링을 통해 특징 공간에서 중심에 가까운 마스크를 선택하고, 이를 최종 예시로 채택한다. 이 단계는 시각적 일관성과 대표성을 강화해, 앞선 두 단계가 놓칠 수 있는 미세한 형태나 색상 변이를 포착한다.
세 단계에서 얻은 예시들은 서로 다른 정규화 기준(텍스트 정합, 밀도 일관성, 특징 중심성)을 갖기 때문에, 최종 카운트 단계에서 다중 예시를 평균하거나 가중합함으로써 잡음에 강인한 추정값을 만든다. 중요한 점은 전체 파이프라인이 인퍼런스 전용이며, CLIP, GroundingDINO, SAM 등 사전 학습된 대형 모델을 파인튜닝하지 않는다는 것이다. 따라서 도메인 전이 성능이 뛰어나며, 의료 영상처럼 라벨이 부족한 분야에서도 높은 정확도를 보인다. 실험에서는 자연 이미지(NWPU‑CROWD), 항공 사진(DOTA‑Count) 및 병리 슬라이드(HE‑Cell) 등 3개 분야 7개 데이터셋에서 기존 ZOC 방법(T2ICount, GeCo, VA‑Count 등)을 크게 앞선 MAE와 RMSE를 기록했다. 또한, Ablation 연구를 통해 각 단계가 독립적으로 기여함을 확인했으며, 엔트로피‑기반 박스 스코어링, 퍼센타일 피크 선택, P2P 프롬프트가 각각 성능 향상에 핵심적인 역할을 함을 입증했다.
전반적으로 CountZES는 “텍스트‑시각‑통계‑특징” 네 가지 축을 동시에 활용해 제로샷 카운팅의 핵심 난제인 예시 품질 문제를 해결한다. 인퍼런스 전용이라는 설계는 실시간 응용이나 라벨이 전혀 없는 새로운 도메인에 바로 적용 가능하게 하며, 향후 대규모 멀티모달 백본과 결합해 더욱 정교한 카운팅 시스템으로 확장될 여지를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기