시각‑언어 모델을 위한 에이전트형 퍼즐 인터랙션 학습 AGILE
초록
AGILE는 퍼즐 맞추기 과정을 단계별 코드 기반 인터랙션으로 전환해 VLM의 시각 인식과 논리 추론 능력을 강화한다. 모델이 환경에 코드를 실행해 조각을 교환·관찰·확대하고, 피드백을 통해 점진적으로 퍼즐을 완성하도록 학습한다. 2×2 퍼즐 정확도가 9.5 %에서 82.8 %로 상승했으며, 9개 일반 비전 벤치마크에서도 평균 3.1 % 성능 향상을 달성했다.
상세 분석
본 논문은 현재 대형 Vision‑Language Model(VLM)이 단순 시각‑언어 과제조차도 근접 무작위 수준에 머무는 근본적인 인식·추론 한계를 지적한다. 이러한 한계를 극복하기 위해 저자들은 ‘퍼즐(jigsaw)’이라는 구조화된 시각 과제를 프록시 작업으로 활용한다. 퍼즐은 이미지 전체를 m × m 격자로 분할하고 무작위로 섞은 뒤, 모델이 단계별로 조각을 교환(swap)하고 현재 상태를 관찰(observe), 필요시 부분을 확대(crop·zoom)하는 일련의 행동을 수행하도록 설계되었다. 핵심은 모델이 직접 실행 가능한 파이썬 코드를 생성하고, 외부 환경이 이를 실행해 시각적 피드백을 반환한다는 점이다. 이 인터랙션 루프는 강화학습(RL) 프레임워크와 결합돼, 모델이 ‘관찰‑행동‑보상’ 사이클을 반복하면서 점진적으로 퍼즐을 완성한다.
데이터 측면에서 저자들은 두 단계의 학습 파이프라인을 제시한다. 첫 번째는 Gemini 2.5 Pro를 이용해 고품질 전문가 트랙터리 1.6 K개를 수집해 모델에게 기본적인 명령어 해석과 코드 생성 능력을 부여하는 ‘콜드 스타트’ 단계이다. 여기서는 코드가 실제로 정답 레이아웃을 재구성하는지 검증하고, 행동 유형(교환, 관찰, 확대)과 단계 수(4~8)를 균형 있게 배치해 학습 효율을 높였다. 두 번째는 ‘Group Relative Policy Optimization(GRPO)’이라 명명한 RL 단계로, 다수의 샘플 궤적을 동시에 평가해 평균 보상을 베이스라인으로 사용한다. 보상 함수는 정확도(정답 퍼즐 여부), 포맷(정해진 ,
실험 결과는 두드러진 성과를 보여준다. 2 × 2 퍼즐에서 정확도가 9.5 %→82.8 %로 급상승했으며, 3 × 3·4 × 4 등 난이도 상승에도 견고한 성능을 유지한다. 더 나아가, AGILE로 사전학습된 모델은 고해상도 이미지 이해, 실세계 장면 분석, 미세 분류, 시각적 추론, 그리고 hallucination 방지 등 9개의 다양한 비전 벤치마크에서 평균 3.1 %의 성능 향상을 기록했다. 데이터 규모를 확대할수록 성능이 선형적으로 증가했으며, 동일 데이터 예산 하에서 일반 QA 기반 학습보다 퍼즐 기반 학습이 동등하거나 우수한 결과를 보였다.
이 논문의 주요 기여는 (1) 퍼즐 해결을 단계적 코드 인터랙션으로 재구성한 AGILE 프레임워크, (2) 난이도와 규모를 자유롭게 조절 가능한 규칙 기반 퍼즐 데이터 생성 방법, (3) GRPO를 통한 효율적 강화학습 파이프라인이다. 특히, 시각‑언어 모델이 ‘코드·피드백·행동’ 루프를 통해 자체적으로 인지·추론 능력을 스스로 개선한다는 점은 기존의 대규모 사전학습·미세조정 패러다임을 넘어선 새로운 학습 패러다임을 제시한다. 향후 연구에서는 보다 복잡한 시각 퍼즐(예: 3D 조각, 동적 장면)이나 멀티모달 툴(예: 외부 검색·그림 그리기)과 결합해 AGILE의 확장성을 검증할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기