GenSeg‑R1: 강화학습 기반 비전‑언어 그라운딩으로 정밀 참조 세그멘테이션 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

GenSeg‑R1은 이미지와 자연어 질의를 입력받아, Qwen3‑VL 기반 비전‑언어 모델이 바운딩 박스와 두 개의 내부 키포인트를 예측하고, 이를 고정된 SAM 2 세그멘터에 전달해 고품질 마스크를 생성한다. 모델은 그룹 상대 정책 최적화(GRPO)와 SAM 2‑in‑the‑loop 보상을 활용해 지도 없이도 공간 추론 능력을 학습하며, 부정 질의(대상 없음) 처리까지 지원한다. RefCOCOg, GRefCOCO, ReasonSeg 등 주요 벤치마크에서 기존 최첨단 모델을 크게 앞선 성능을 기록한다.

상세 분석

GenSeg‑R1은 “reason‑then‑segment” 파이프라인을 채택해 기존의 일체형 그라운딩‑세그멘테이션 모델이 갖는 구조적 한계를 극복한다. 핵심은 Qwen3‑VL(4 B·8 B) 백본을 GRPO 방식으로 파인튜닝해, 텍스트‑이미지 쌍으로부터 직접 바운딩 박스와 두 개의 내부 키포인트를 출력하도록 학습한다는 점이다. 이때 태그에 자유형 사고 과정을 삽입하도록 설계했으며, 실제 학습에서는 사고 체인 라벨이 필요 없고, 정책 샘플링과 보상 신호만으로 충분히 최적화된다.

보상 설계는 두 단계로 구분된다. 첫 번째는 거리 기반 보상으로, 구조와 좌표 형식 검증, 박스 IoU, 키포인트 거리 등을 가볍게 평가한다. 이는 빠른 학습을 가능하게 하지만 마스크 품질과 직접적인 연관은 약하다. 두 번째는 SAM 2‑in‑the‑loop 보상으로, 예측된 박스·키포인트를 SAM 2에 전달해 마스크를 생성하고, 그 IoU를 직접 보상에 반영한다. 특히 부정 질의에 대해 “no_target” 플래그를 예측하도록 유도함으로써, 기존 모델이 부정 질의에 무조건 마스크를 생성하는 문제를 해결한다. 보상 가중치는 IoU(5.0), 부정 포인트 유효성(10.0), no_target(10.0) 등으로 설정돼, 마스크 경계 정밀도와 부정 질의 인식 능력을 동시에 강화한다.

데이터 측면에서 GenSeg‑R1‑4B/8B는 VisionReasoner‑MultiObjects‑7K(≈7 k 샘플)로 학습해 기본적인 객체 위치와 키포인트 정보를 습득한다. 반면 GenSeg‑R1‑G는 GRefCOCO(≈15 k 샘플)와 부정 예시를 포함해 학습함으로써, 다중 객체와 “대상 없음” 상황에서도 안정적인 동작을 보인다.

실험 결과는 세 가지 벤치마크에서 일관된 우위를 보여준다. RefCOCOg 검증에서는 8 B 모델이 cIoU 0.7127, mIoU 0.7382를 기록해 Qwen3‑VL‑Instruct 대비 각각 +15.3·+21.9 포인트, Seg‑Zero‑7B 대비 +3.3·+2.3 포인트 향상했다. 박스 검출에서도 AP 0.7277 등 높은 점수를 얻었다. SAM 2 프롬프트 Ablation에서는 두 개의 내부 키포인트가 없을 때보다 cIoU +0.0144, P@0.9 +0.0148 등 의미 있는 개선을 보이며, 키포인트가 마스크 정밀도에 크게 기여함을 확인했다. GRefCOCO에서는 GenSeg‑R1‑G가 목표 mIoU 76.69%와 no‑target 정확도 82.40%를 달성, 기존 Seg‑R1‑7B와 Seg‑Zero‑7B는 no‑target을 전혀 인식하지 못하는 차이를 보였다. ReasonSeg 테스트에서도 4 B 모델이 mIoU 68.40%를 기록, 복합적 추론 요구에서도 경쟁 모델을 크게 앞섰다.

효율성 측면에서 GRPO는 별도의 가치 네트워크 없이 그룹 내 보상을 정규화해 메모리·연산 부담을 최소화한다. 학습은 FSDP(ZeRO‑3)와 vLLM 기반 배치 샘플링을 활용해 8 GPU(H200) 환경에서 4 B 모델은 2×, 8 B 모델은 4× GPU를 사용해 수일 내에 수렴한다.

전체적으로 GenSeg‑R1은 (1) 강력한 Qwen3‑VL 백본, (2) GRPO 기반 정책 최적화, (3) SAM 2‑in‑the‑loop 보상, (4) 부정 질의 처리 메커니즘이라는 네 가지 핵심 요소를 결합해, 비전‑언어 그라운딩과 고품질 마스크 생성 사이의 간극을 효과적으로 메운다. 이는 향후 인터랙티브 로봇, 보조 기술, 멀티모달 검색 등 실시간 고정밀 세그멘테이션이 요구되는 응용 분야에 큰 파급 효과를 기대한다.

GenSeg‑R1: 강화학습 기반 비전‑언어 그라운딩으로 정밀 참조 세그멘테이션 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기