비전제로: 라벨‑프리 전략적 셀프플레이로 VLM을 무한히 성장시키다

비전제로: 라벨‑프리 전략적 셀프플레이로 VLM을 무한히 성장시키다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Vision‑Zero는 이미지 쌍을 이용해 “스파이 찾기” 게임을 구성하고, 다중 에이전트가 역할을 바꾸며 전략적 대화를 나누게 함으로써 라벨 없이 자체 학습 데이터를 생성한다. Iterative‑SPO라는 알고리즘으로 셀프플레이와 검증 가능한 보상 기반 RL을 교대로 학습시켜 성능 정체를 방지하고, CLEVR, 차트, 실세계 이미지 등 다양한 도메인에서 기존 라벨 기반 방법들을 넘어서는 추론·차트 QA·시각 이해 성능을 달성한다.

상세 분석

Vision‑Zero는 기존 VLM 학습이 인간이 만든 데이터와 비용이 많이 드는 라벨링에 의존한다는 근본적인 한계를 셀프플레이 기반 프레임워크로 극복한다. 핵심 아이디어는 “Who Is the Spy” 형태의 사회추리 게임을 시각적 입력에 맞게 변형한 것으로, n명의 시민과 1명의 스파이가 서로 다른 이미지(시민은 원본, 스파이는 빈 화면)를 받는다. 게임은 두 단계로 진행된다. 첫 번째 ‘단서 제공’ 단계에서 각 에이전트는 자신의 이미지와 이전 대화 히스토리를 바탕으로 자연어 단서를 생성한다. 여기서 시민은 정확하면서도 스파이가 추론하기 어렵게 정보를 제한적으로 제공해야 하고, 스파이는 빈 화면을 보며 시민들의 단서를 종합해 가능한 이미지 묘사를 만든다. 두 번째 ‘투표’ 단계에서는 시민들이 스파이를 추정해 투표하고, 투표 결과와 정확도에 따라 제로섬 보상이 부여된다. 이 과정에서 생성된 대화와 투표 기록이 바로 라벨‑프리 학습 데이터가 된다.

학습 알고리즘인 Iterative‑SPO는 셀프플레이 단계와 검증 가능한 보상 기반 강화학습(RLVR) 단계를 교대로 수행한다. 셀프플레이만 진행하면 에이전트가 국소 최적점에 머물 위험이 있는데, RLVR 단계에서는 투표 정확도(스파이 식별 성공 여부)를 직접적인 보상으로 사용해 정책을 재정렬한다. 또한 그룹 정규화와 투표 수에 비례한 보상 설계로 역할 편향을 완화하고, 학습이 진행될수록 게임 난이도가 자동으로 상승하도록 설계했다.

데이터 측면에서 Vision‑Zero는 전혀 라벨이 없는 이미지만 필요하다. 논문에서는 CLEVR 합성 장면(2,000장), 차트 이미지(1,000장), 실세계 사진(1,000장)을 사용해 실험했으며, 이미지 렌더링·수집 비용이 매우 낮다. 이러한 도메인‑아그노스티시티는 모델이 다양한 시각적 추론 능력을 동시에 강화하도록 만든다.

실험 결과는 Qwen2.5‑VL‑7B 기반 모델에 Vision‑Zero를 적용했을 때, 기존 인간 라벨 기반 사후 학습 방법들을 모두 앞서는 성능 향상을 보여준다. 특히 수학·논리 추론(MathVision), 차트 질문응답(ChartQA), 문서 기반 시각 질의(RealWorldQA)에서 각각 3~6%p 이상의 정확도 상승을 기록했으며, 이는 라벨‑프리 접근법이 고비용 데이터 없이도 고성능을 달성할 수 있음을 입증한다.

전반적으로 Vision‑Zero는 (1) 게임 설계가 목표 과제와 직접 연관돼 전략·추론 능력을 자연스럽게 학습하게 함, (2) 셀프플레이와 검증 가능한 RL을 순환시켜 학습 정체를 방지, (3) 라벨‑프리·도메인‑아그노스틱 데이터만으로도 다양한 멀티모달 과제에 일반화 가능한 모델을 만든다는 세 가지 핵심 기여를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기