공중영상 시각적 정합을 위한 공간 추론 기반 포스트 트레이닝
초록
본 논문은 원격탐사 영상에서 자연어 설명을 기반으로 목표 객체를 정확히 찾는 RSVG 과제에, 위치 인식을 강화한 체인‑오브‑생각(CoT) 지도학습과 연속적인 거리 기반 보상을 결합한 강화학습(RFT)을 도입한다. CoT‑SFT 단계에서 합성된 위치‑추론 데이터를 이용해 모델에 명시적인 공간 사고 흐름을 학습시키고, 이후 위치 보상과 공간 일관성 가이드가 포함된 GRPO를 통해 미세한 위치 조정을 가능하게 한다. 실험 결과, 제한된 학습 데이터만 사용함에도 불구하고 기존 최첨단 모델을 크게 능가하는 성능을 보였다.
상세 분석
RSGround‑R1은 원격탐사 시각적 정합(RSVG)이라는 특수한 도메인에서 발생하는 “위치·관계 표현에 대한 의존성” 문제를 근본적으로 해결하고자 설계되었다. 첫 번째 단계인 Chain‑of‑Thought Supervised Fine‑Tuning(CoT‑SFT)은 기존 대형 멀티모달 언어 모델이 제공하는 단일 좌표 예측을 넘어, “
두 번째 단계인 Reinforcement Fine‑Tuning(RFT)에서는 기존 GRPO( Group Relative Policy Optimization) 프레임워크에 두 가지 핵심 변형을 추가한다. 첫째, 전통적인 IoU 보상이 “0% 겹침” 상황에서 전혀 신호를 제공하지 못하는 한계를 극복하기 위해, 예측 바운딩 박스와 정답 사이의 유클리드 거리 기반 가우시안 커널을 활용한 연속형 위치 보상(Positional Reward)을 도입한다. 이 보상은 거리와 정비례하여 점점 커지며, 예측이 목표에 근접할수록 점수가 상승한다. 따라서 모델은 “근접하지만 겹치지 않은” 예측에 대해서도 의미 있는 그래디언트를 받아 점진적인 위치 미세조정이 가능해진다.
둘째, 원격탐사 이미지의 광범위하고 유사한 객체 분포 특성으로 인해 동일 질의에 대해 여러 rollout이 공간적으로 일관되지 않는 현상이 빈번히 발생한다. 이를 해결하기 위해 저자들은 “Spatial Consistency Guided Optimization”을 설계했으며, 이는 같은 질의 그룹 내 rollout들의 바운딩 박스 중심 간 분산을 정량화하고, 분산이 큰 샘플에 가중치를 높여 손실을 재조정한다. 결과적으로 정책 업데이트가 공간적으로 불안정한 경우에 더 큰 페널티를 부여함으로써, 모델이 일관된 위치 추론 전략을 학습하도록 유도한다.
실험에서는 DIOR‑RSVG, RSIT‑Ground 등 대표적인 원격탐사 시각적 정합 벤치마크에서 기존 SOTA 모델 대비 IoU, 정확도, 그리고 위치 추론 일관성 지표에서 모두 우수한 성능을 기록했다. 특히 전체 학습 데이터의 10% 이하만 사용했음에도 불구하고, CoT‑SFT와 위치 보상이 결합된 RFT가 모델의 공간 인식 능력을 비약적으로 향상시켰음을 확인할 수 있다. 이 논문은 “위치 인식 → 단계적 사고 → 연속형 보상 → 일관성 강화”라는 4단계 파이프라인을 통해 원격탐사 분야에서 MLLM이 직면한 공간 추론 한계를 체계적으로 해소한 점이 가장 큰 공헌이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기