공중영상 시각적 정합을 위한 공간 추론 기반 포스트 트레이닝

공중영상 시각적 정합을 위한 공간 추론 기반 포스트 트레이닝
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 원격탐사 영상에서 자연어 설명을 기반으로 목표 객체를 정확히 찾는 RSVG 과제에, 위치 인식을 강화한 체인‑오브‑생각(CoT) 지도학습과 연속적인 거리 기반 보상을 결합한 강화학습(RFT)을 도입한다. CoT‑SFT 단계에서 합성된 위치‑추론 데이터를 이용해 모델에 명시적인 공간 사고 흐름을 학습시키고, 이후 위치 보상과 공간 일관성 가이드가 포함된 GRPO를 통해 미세한 위치 조정을 가능하게 한다. 실험 결과, 제한된 학습 데이터만 사용함에도 불구하고 기존 최첨단 모델을 크게 능가하는 성능을 보였다.

상세 분석

RSGround‑R1은 원격탐사 시각적 정합(RSVG)이라는 특수한 도메인에서 발생하는 “위치·관계 표현에 대한 의존성” 문제를 근본적으로 해결하고자 설계되었다. 첫 번째 단계인 Chain‑of‑Thought Supervised Fine‑Tuning(CoT‑SFT)은 기존 대형 멀티모달 언어 모델이 제공하는 단일 좌표 예측을 넘어, “” 형태의 단계별 사고 과정을 학습한다. 이를 위해 저자들은 Qwen2.5‑VL‑72B를 활용해 30k 규모의 합성 CoT 데이터셋을 자동 생성하고, 불완전하거나 형식이 맞지 않는 샘플을 필터링함으로써 고품질의 위치 추론 템플릿을 확보하였다. CoT‑SFT는 토큰 수준의 로그우도 손실을 최소화하는 방식으로, 이미지‑문장 쌍을 입력받아 사고 과정과 정답 바운딩 박스를 순차적으로 출력하도록 모델을 미세조정한다. 이 과정은 모델이 “‘왼쪽 하단에 있는 건물’이라는 표현을 어떻게 해석하고, 해당 영역을 어떻게 좌표화하는가”에 대한 명시적 규칙을 내재하도록 만든다.

두 번째 단계인 Reinforcement Fine‑Tuning(RFT)에서는 기존 GRPO( Group Relative Policy Optimization) 프레임워크에 두 가지 핵심 변형을 추가한다. 첫째, 전통적인 IoU 보상이 “0% 겹침” 상황에서 전혀 신호를 제공하지 못하는 한계를 극복하기 위해, 예측 바운딩 박스와 정답 사이의 유클리드 거리 기반 가우시안 커널을 활용한 연속형 위치 보상(Positional Reward)을 도입한다. 이 보상은 거리와 정비례하여 점점 커지며, 예측이 목표에 근접할수록 점수가 상승한다. 따라서 모델은 “근접하지만 겹치지 않은” 예측에 대해서도 의미 있는 그래디언트를 받아 점진적인 위치 미세조정이 가능해진다.

둘째, 원격탐사 이미지의 광범위하고 유사한 객체 분포 특성으로 인해 동일 질의에 대해 여러 rollout이 공간적으로 일관되지 않는 현상이 빈번히 발생한다. 이를 해결하기 위해 저자들은 “Spatial Consistency Guided Optimization”을 설계했으며, 이는 같은 질의 그룹 내 rollout들의 바운딩 박스 중심 간 분산을 정량화하고, 분산이 큰 샘플에 가중치를 높여 손실을 재조정한다. 결과적으로 정책 업데이트가 공간적으로 불안정한 경우에 더 큰 페널티를 부여함으로써, 모델이 일관된 위치 추론 전략을 학습하도록 유도한다.

실험에서는 DIOR‑RSVG, RSIT‑Ground 등 대표적인 원격탐사 시각적 정합 벤치마크에서 기존 SOTA 모델 대비 IoU, 정확도, 그리고 위치 추론 일관성 지표에서 모두 우수한 성능을 기록했다. 특히 전체 학습 데이터의 10% 이하만 사용했음에도 불구하고, CoT‑SFT와 위치 보상이 결합된 RFT가 모델의 공간 인식 능력을 비약적으로 향상시켰음을 확인할 수 있다. 이 논문은 “위치 인식 → 단계적 사고 → 연속형 보상 → 일관성 강화”라는 4단계 파이프라인을 통해 원격탐사 분야에서 MLLM이 직면한 공간 추론 한계를 체계적으로 해소한 점이 가장 큰 공헌이라 할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기