MLLM 기반 암달 완성: 현실 지식으로 가려진 객체 복원

본 연구는 자율주행차와 로봇 등에서 필수적인 이미지 암달 완성(가려진 물체 복원) 문제를 해결하기 위해, 멀티모달 대형 언어 모델(MLLM)의 풍부한 현실 세계 지식을 활용하는 새로운 프레임워크 AmodalCG를 제안한다. 기존 방법들은 주로 Stable Diffusion과 같은 시각적 생성 모델에만 의존하거나, MLLM을 세그멘테이션 단계에만 사용해 실제 생성 과정에 대한 구체적인 가이드를 제공하지 못했다. 이러한 한계를 극복하기 위해 AmodalCG는 다음과 같은 5개의 핵심 모듈로 구성된다. 1) **Occluder Detection Module**: 입력 이미지와 모달 마스크를 이용해 occluder(가려지는 물체)를 식별한다. 이를 위해 사전 학습된 의미론적 세그멘테이션 모델과 기하학적 순서 예측 네트워크를 결합해 occluder 마스크를 추출하고, 인페인팅 마스크(M_inpaint)를 구성한다. 2) **Guidance Decision Module**: 가려짐 정도를 평가해 MLLM 가이드를 실제로 호출할지 결정한다. 경량 MLLM을 사용해 “가려진 정도가 심한가?”라는 이진 질문과 객체 카테고리를 JSON 형태로 반환한다. 가벼운 경우에는 추가 가이드를 생략해 연산 비용을 절감한다. 3) **Geometric Guidance Module**: MLLM이 전체 객체의 바운딩 박스를 세 가지 스케일(타이트, 모데레이트, 코스)로 예측한다. 이때 입력 프롬프트에는 이미지 크기, 가시 영역 좌표, 객체 이름 등이 포함된다. 예측된 박스는 원래 인페인팅 마스크와 교집합을 취해 최종 마스크(M*inpaint)를 만든다. 다중 스케일 전략을 통해 MLLM이 불확실한 occlusion을 추정할 때 발생할 수 있는 오류를 완화한다. 4) **Semantic Guidance Module**: 가려진 영역에 대한 상세 텍스트 설명(P_long)을 생성한다. 시스템 프롬프트는 “가려진 부분을 추측하고 Stable Diffusion 프롬프트를 77 토큰 이하로 제공하라”는 형태이며, MLLM은 색상, 질감, 형태 등 구체적인 정보를 반환한다. 이 텍스트는 SD의 텍스트 입력으로 사용돼, 생성 과정에 명확한 의미론적 방향을 제공한다. 5) **Inpainting Module**: 최종적으로 Stable Diffusion 기반 인페인팅을 수행한다. 여기서는 기하학적 가이드에 의해 조정된 마스크와 시맨틱 가이드 텍스트를 동시에 입력한다. 다중 스케일 바운딩 박스를 순차적으로 검증하면서, 가장 작은 스케일에서 완전한 복원이 가능하면 그 결과를 채택하고, 그렇지 않으면 다음 스케일로 진행한다. 이를 통해 과도한 마스크로 인한 불필요 객체 생성과, 과소 마스크로 인한 복원 부족을 동시에 방지한다. 실험에서는 다양한 실세계 사진과 공개 데이터셋을 활용해 AmodalCG의 성능을 평가했다. 암달 세그멘테이션 mIoU는 기존 최첨단 방법 대비 5.49% 상승했으며, 가려진 객체 인식 정확도는 2.92% 개선되었다. 정성적 비교에서도, 기존 방법이 가려진 영역을 무시하거나 전혀 다른 객체를 생성하는 경우가 많았던 반면, AmodalCG는 MLLM이 제공한 구체적인 텍스트와 정확한 마스크 덕분에 자연스럽고 의미론적으로 일관된 결과를 얻었다. 특히, 복잡한 occlusion(예: 사람의 다리 부분이 가려진 경우)에서도 “다리의 위치와 자세”를 정확히 추론해 재현했다. 본 논문은 MLLM과 Diffusion 모델을 결합한 새로운 패러다임을 제시함으로써, 고차원 시각-언어 문제인 암달 완성에 대한 실용적인 해결책을 제공한다. 가이드 필요성을 동적으로 판단하고, 다중 스케일 기하학적 추정과 상세 시맨틱 설명을 결합한 전략이 성능 향상의 핵심 요인으로 작용한다는 점에서, 향후 다른 시각 생성 과제(예: 이미지 편집, 3D 복원)에도 확장 가능성을 시사한다.

MLLM 기반 암달 완성: 현실 지식으로 가려진 객체 복원

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기