상호작용 일관 객체 제거를 위한 MLLM 기반 추론

상호작용 일관 객체 제거를 위한 MLLM 기반 추론
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 객체 제거 시 대상 객체와 함께 발생하는 그림자, 연결된 물체, 발자국 등 부수적인 상호작용 요소까지 자동으로 식별·제거하는 새로운 과제인 Interaction‑Consistent Object Removal(ICOR)를 정의하고, 멀티모달 대형 언어 모델(MLLM)을 활용해 인간 수준의 commonsense reasoning을 수행하는 REORM 프레임워크를 제안한다. 또한 ICOR 전용 벤치마크 ICOREval을 구축해 기존 이미지 편집 모델 대비 뛰어난 성능을 입증한다.

상세 분석

본 연구는 기존 객체 제거 기술이 “대상 객체만”을 마스크하고 인페인팅하는 데 그쳐, 그림자·반사·연결된 물체·맥락적 연관 객체 등 주변 요소를 무시함으로써 의미적 불일치를 초래한다는 근본적인 한계를 지적한다. 이를 해결하기 위해 저자들은 Interaction‑Consistent Object Removal(ICOR)라는 새로운 과제를 정의하고, 네 가지 상호작용 유형(조명‑의존 효과, 물리적으로 연결된 객체, 대상‑생성 요소, 맥락적으로 연결된 객체)을 체계화한다. 핵심 아이디어는 멀티모달 대형 언어 모델(MLLM), 구체적으로 GPT‑4o를 활용해 이미지와 텍스트 명령을 동시에 이해하고, “대상이 사라졌을 때 어떤 요소가 논리적으로 남아 있으면 안 되는가”를 추론하도록 하는 것이다.

REORM 프레임워크는 크게 세 단계로 구성된다. 첫 번째 단계인 MLLM‑Driven Analysis에서는 체인‑오브‑생각 프롬프트를 사용해 MLLM이 명령을 해석하고, 대상 객체와 부수 요소를 리스트화한다. 여기서 중요한 점은 MLLM이 직접 마스크를 생성하지 않고, 텍스트 기반 논리 추론을 통해 “제거해야 할 요소”를 명시한다는 점이다. 두 번째 단계는 Open‑vocabulary Segmentation( Grounded‑SAM )을 이용해 리스트에 포함된 각 요소에 대한 정확한 바이너리 마스크를 자동 생성하고, 이를 Mask‑guided Object Removal 모델(ObjectClear)에게 전달해 인페인팅 기반 제거를 수행한다. 세 번째 단계인 MLLM‑Controlled Self‑Correction은 첫 번째 제거 결과를 다시 MLLM에게 검증시켜, 시뮬레이션된 기대 장면과 비교해 남은 불일치를 교정한다. 교정 대상은 다시 세그멘테이션·마스크 생성 과정을 거쳐 Attentive Eraser와 같은 두 번째 인페인팅 모델로 정제된다.

실용성을 고려해 로컬 배포 버전도 설계했는데, 대형 MLLM 대신 경량 오픈소스 모델을 사용하고, 프롬프트 체이닝과 MLLM‑LLM 협업을 통해 복잡한 추론을 여러 단계로 분할한다. 이는 메모리·연산 제한이 있는 단일 GPU 환경에서도 합리적인 성능을 유지하게 한다.

평가를 위해 구축된 ICOREval 벤치는 이미지·명령·정답 이미지 쌍으로 구성되며, 각 샘플은 위 네 가지 상호작용 유형이 복합적으로 포함된 실제 상황을 반영한다. 실험 결과 REORM은 기존 Diffusion‑based 객체 제거 모델(Jiang et al., 2025; Sun et al., 2025) 및 최신 MLLM 기반 편집 모델에 비해 PSNR/SSIM뿐 아니라 인간 평가 기준인 “상호작용 일관성” 점수에서 유의미하게 앞섰다. 특히 조명‑의존 효과와 물리적 연결 객체 제거에서 높은 정밀도를 보였으며, 로컬 버전도 클라우드 기반 대형 모델 대비 10 % 이내의 성능 저하만을 나타냈다.

이 논문은 (1) 이미지 편집에 commonsense reasoning을 정형화된 파이프라인으로 도입한 점, (2) 상호작용 요소를 체계적으로 정의·분류한 점, (3) 실제 적용 가능한 로컬 배포 전략을 제시한 점에서 의미가 크다. 다만 MLLM의 추론 정확도에 크게 의존하므로, 모델이 잘못된 상호작용을 추론할 경우 오류 전파가 발생할 수 있다. 향후 연구에서는 추론 결과를 시각적 피드백과 결합해 인간‑인공지능 협업 형태로 오류를 즉시 교정하거나, 멀티모달 라벨링 데이터로 MLLM을 사전 학습시켜 도메인 특화된 상호작용 지식을 강화하는 방향이 유망하다.


댓글 및 학술 토론

Loading comments...

의견 남기기