GenSeg‑R1: 강화학습 기반 비전‑언어 그라운딩으로 정밀 참조 세그멘테이션 구현
초록
GenSeg‑R1은 이미지와 자연어 질의를 입력받아, Qwen3‑VL 기반 비전‑언어 모델이 바운딩 박스와 두 개의 내부 키포인트를 예측하고, 이를 고정된 SAM 2 세그멘터에 전달해 고품질 마스크를 생성한다. 모델은 그룹 상대 정책 최적화(GRPO)와 SAM 2‑in‑the‑loop 보상을 활용해 지도 없이도 공간 추론 능력을 학습하며, 부정 질의(대상 없음) 처리까지 지원한다. RefCOCOg, GRefCOCO, ReasonSeg 등 주요 벤치마크에서 기존 최첨단 모델을 크게 앞선 성능을 기록한다.
상세 분석
GenSeg‑R1은 “reason‑then‑segment” 파이프라인을 채택해 기존의 일체형 그라운딩‑세그멘테이션 모델이 갖는 구조적 한계를 극복한다. 핵심은 Qwen3‑VL(4 B·8 B) 백본을 GRPO 방식으로 파인튜닝해, 텍스트‑이미지 쌍으로부터 직접 바운딩 박스와 두 개의 내부 키포인트를 출력하도록 학습한다는 점이다. 이때
보상 설계는 두 단계로 구분된다. 첫 번째는 거리 기반 보상으로,
데이터 측면에서 GenSeg‑R1‑4B/8B는 VisionReasoner‑MultiObjects‑7K(≈7 k 샘플)로 학습해 기본적인 객체 위치와 키포인트 정보를 습득한다. 반면 GenSeg‑R1‑G는 GRefCOCO(≈15 k 샘플)와 부정 예시를 포함해 학습함으로써, 다중 객체와 “대상 없음” 상황에서도 안정적인 동작을 보인다.
실험 결과는 세 가지 벤치마크에서 일관된 우위를 보여준다. RefCOCOg 검증에서는 8 B 모델이 cIoU 0.7127, mIoU 0.7382를 기록해 Qwen3‑VL‑Instruct 대비 각각 +15.3·+21.9 포인트, Seg‑Zero‑7B 대비 +3.3·+2.3 포인트 향상했다. 박스 검출에서도 AP 0.7277 등 높은 점수를 얻었다. SAM 2 프롬프트 Ablation에서는 두 개의 내부 키포인트가 없을 때보다 cIoU +0.0144, P@0.9 +0.0148 등 의미 있는 개선을 보이며, 키포인트가 마스크 정밀도에 크게 기여함을 확인했다. GRefCOCO에서는 GenSeg‑R1‑G가 목표 mIoU 76.69%와 no‑target 정확도 82.40%를 달성, 기존 Seg‑R1‑7B와 Seg‑Zero‑7B는 no‑target을 전혀 인식하지 못하는 차이를 보였다. ReasonSeg 테스트에서도 4 B 모델이 mIoU 68.40%를 기록, 복합적 추론 요구에서도 경쟁 모델을 크게 앞섰다.
효율성 측면에서 GRPO는 별도의 가치 네트워크 없이 그룹 내 보상을 정규화해 메모리·연산 부담을 최소화한다. 학습은 FSDP(ZeRO‑3)와 vLLM 기반 배치 샘플링을 활용해 8 GPU(H200) 환경에서 4 B 모델은 2×, 8 B 모델은 4× GPU를 사용해 수일 내에 수렴한다.
전체적으로 GenSeg‑R1은 (1) 강력한 Qwen3‑VL 백본, (2) GRPO 기반 정책 최적화, (3) SAM 2‑in‑the‑loop 보상, (4) 부정 질의 처리 메커니즘이라는 네 가지 핵심 요소를 결합해, 비전‑언어 그라운딩과 고품질 마스크 생성 사이의 간극을 효과적으로 메운다. 이는 향후 인터랙티브 로봇, 보조 기술, 멀티모달 검색 등 실시간 고정밀 세그멘테이션이 요구되는 응용 분야에 큰 파급 효과를 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기