추론 시 Q함수로 VLM 에이전트 성능 즉시 향상

추론 시 Q함수로 VLM 에이전트 성능 즉시 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습된 비전‑언어 모델(VLM)을 고정한 채, 별도로 오프라인에서 학습한 Q‑함수를 이용해 후보 행동을 재정렬함으로써 추론 단계에서 즉시 정책을 개선하는 “Best‑of‑Q” 프레임워크를 제안한다. VLM이 생성한 N개의 행동 후보를 Q‑함수가 평가해 가장 높은 기대 보상을 가진 행동을 선택한다. WebVoyager 벤치마크에서 Qwen2.5‑VL‑7B는 성공률 38.8 %에서 55.7 %로, GPT‑4.1 기반 에이전트는 82.4 %에서 88.8 %로 상승한다.

상세 분석

이 연구는 VLM을 “행동 제안자”와 “전략 선택자”로 명확히 분리한다는 점에서 혁신적이다. 기존 접근법은 VLM 자체를 정책 네트워크로 사용해 직접 행동을 생성하지만, 웹과 같은 빠르게 변하는 환경에서는 사전 학습된 파라미터만으로는 충분한 적응력이 부족하다. 저자들은 VLM을 동결하고, 동일 상태에서 다수(N=3) 후보 행동을 생성하도록 프롬프트를 설계한다. 이후, 오프라인 데이터셋을 활용해 Implicit Q‑Learning(IQL)으로 경량 MLP 기반 Q‑함수를 학습한다. IQL은 기대값 회귀(expectile regression)를 통해 상태‑가치 V(s)를 안정적으로 추정하고, 이를 타깃으로 Q(s,a)를 업데이트함으로써 OOD 행동에 대한 편향을 최소한다.

Q‑함수는 VLM이 추출한 멀티모달 임베딩(스크린샷, 텍스트, 행동 설명)을 입력받아 각 후보 행동에 대한 미래 누적 보상을 예측한다. 추론 시에는 Q값이 가장 높은 후보를 선택하므로, 기존 VLM 정책이 만든 “최악의” 행동을 배제하고, “최선의” 행동을 빠르게 찾아낸다. 이 과정은 DQN과 유사하지만, 행동 공간이 사전에 정의된 고정 집합이 아니라 VLM이 동적으로 생성한 후보 집합이라는 점에서 차별화된다.

학습 데이터는 ε‑greedy 정책으로 초기 수집한 뒤, 학습된 Q‑함수를 적용해 더 높은 품질의 궤적을 다시 수집하는 순환 과정을 통해 점진적으로 개선된다. 실험에서는 WebVoyager의 590개 패치된 태스크에 대해 GPT‑4.1과 오픈소스 Qwen2.5‑VL(7B, 72B) 두 모델을 정책 백본으로 사용했다. Best‑of‑Q는 모든 백본에서 성공률을 크게 끌어올렸으며, 특히 작은 모델(Qwen2.5‑7B)에서 17 %p 상승이라는 눈에 띄는 효과를 보였다. 또한 평균 스텝 수는 크게 증가하지 않아 효율성도 유지된다.

한계점으로는 후보 행동 수(N)의 선택이 성능에 민감하고, Q‑함수 학습에 사용되는 오프라인 데이터의 품질에 크게 의존한다는 점이다. 또한, 현재는 단일 단계에서만 Q값을 평가하므로 장기적인 계획을 위한 다단계 가치 추정에는 추가 연구가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기