환각을 활용한 프롬프트 의존도 감소와 자동 세그멘테이션
초록
본 논문은 멀티모달 대형 언어 모델(MLLM)의 환각 현상을 제거하는 대신, 이를 유용한 사전 지식으로 활용한다. 다중 스케일 체인‑오브‑생각 프롬프트와 시각적 대비 추론을 결합한 반복적인 Prompt‑Mask 사이클(ProMaC)을 제안해, 하나의 작업‑일반 프롬프트만으로 다양한 이미지에서 정확한 인스턴스‑특정 프롬프트와 마스크를 동시에 개선한다. 5개의 벤치마크에서 기존 방법들을 크게 앞선 성능을 보이며, 코드와 모델은 공개된다.
상세 분석
ProMaC는 두 개의 모듈, 프롬프트 생성기와 마스크 생성기로 구성된 폐쇄 루프를 통해 테스트 시점에만 작동하는 training‑free 프레임워크이다. 프롬프트 생성기는 이미지 전체와 다중 스케일 패치들을 MLLM에 입력해 “체인‑오브‑생각” 방식으로 초기 환각을 유도한다. 이 단계에서 모델은 사전 학습 시 학습한 객체‑공동 발생 확률을 활용해, 눈에 보이지 않거나 가려진 객체에 대한 후보 라벨과 위치 정보를 생성한다. 이렇게 얻어진 후보(A_k^fore, A_k^back, B_k)는 여러 스케일에서 집계돼 후보 리스트 A_i, B_i 로 정리된다.
환각이 과도하면 오히려 성능을 저하시킬 수 있기 때문에, ProMaC는 “시각적 대비 추론(VCR)”을 도입한다. 마스크 생성기가 현재 프롬프트에 따라 세그멘테이션 마스크를 만든 뒤, 해당 마스크 영역을 inpainting 모델로 제거해 배경만 남은 대비 이미지(contrastive image)를 만든다. 이 대비 이미지를 다시 MLLM에 입력하면, 배경만 존재하므로 이전 단계에서 발생한 공동 발생 환각이 드러난다. 원본 이미지와 대비 이미지의 응답을 비교해 일치하지 않는 후보를 제거함으로써, 프롬프트는 점진적으로 정제된다.
정제된 인스턴스‑특정 프롬프트는 다시 마스크 생성기에 전달되어, “마스크 의미 정렬(mask semantic alignment)”을 수행한다. 여기서는 마스크가 작업‑일반 프롬프트와 의미적으로 일치하도록 손실을 최소화한다(예: “camouflaged animal” 작업에서는 마스크가 위장된 동물 영역에만 집중). 이렇게 생성된 마스크는 다음 사이클에서 VCR을 위한 새로운 대비 이미지 생성에 사용돼, 프롬프트와 마스크가 상호 보완적으로 개선된다.
핵심 기여는 세 가지이다. 첫째, 환각을 부정적인 현상으로만 보는 기존 패러다임을 뒤집어, 사전 지식 탐색 수단으로 전환한다. 둘째, 다중 스케일 체인‑오브‑생각과 VCR을 결합한 반복 최적화 절차를 제시해, 프롬프트와 마스크를 동시에 고도화한다. 셋째, 12개의 기존 모델과 5개의 서로 다른 세그멘테이션 태스크(예: 위장 동물 탐지, 의료 영상, 자연 풍경 등)에서 광범위한 실험을 수행해, 평균 4~7%p 이상의 mIoU 향상을 입증한다.
ProMaC는 별도의 파인튜닝이나 추가 라벨이 필요 없으며, 기존의 SAM, Ground‑SAM, GenSAM 등과 호환된다. 또한 오픈소스 MLLM(LLaVA)에서도 시각적 마커 없이 마스크 기반 VCR을 구현해, 비용 효율적인 적용이 가능하다. 한계점으로는 매우 복잡한 장면에서 초기 환각이 과도하게 발생하면 정제 과정이 여러 사이클을 필요로 할 수 있다는 점이며, 향후 학습 기반 환각 억제와 결합해 사이클 수를 줄이는 연구가 제안된다.
댓글 및 학술 토론
Loading comments...
의견 남기기