멀티모달 대형 언어 모델을 활용한 약한 지도 클래스 불가지 객체 카운팅
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 이미지‑레벨 객체 수만을 이용해 클래스에 구애받지 않는 객체 카운팅을 수행하는 최초의 MLLM 기반 프레임워크 WS‑COC를 제안한다. 직접적인 수치 회귀 대신 “범위 판단 → 세분화 → 최종 카운트”의 대화형 튜닝(D³T), 이미지 집합의 상대 순위 학습(CRCO), 전역·지역 예측 융합(GLCE)이라는 세 가지 전략을 도입해 훈련·추론 단계에서 MLLM의 카운팅 능력을 크게 향상시킨다. FSC‑147, CARPK, PUCPR+, ShanghaiTech 등 네 개 데이터셋에서 완전 감독 방식과 견줄 만한 성능을 달성하면서 라벨링 비용을 크게 절감한다.
상세 분석
WS‑COC는 기존 약한 지도 카운팅이 이미지‑레벨 카운트만을 이용해 직접 회귀하는 한계를 극복하기 위해, 멀티모달 대형 언어 모델(MLLM)의 자연어 추론 능력을 활용한다. 첫 번째 전략인 Divide‑and‑Discern Dialogue Tuning(D³T)은 카운트를 한 번에 예측하는 대신, “τ보다 많은가?”와 같은 이진 질문을 여러 라운드에 걸쳐 순차적으로 제시한다. 초기 범위를 전체 데이터셋의 최소·최대 카운트(
댓글 및 학술 토론
Loading comments...
의견 남기기