시각 전제 검증으로 신뢰성 강화된 비전‑언어 과정 보상 모델

본 논문은 비전‑언어 과정 보상 모델(VL‑PRM)이 시각 전제의 불확실성 때문에 발생하는 오판을 해결하고자, 정책이 단계별 시각 체크리스트를 생성하도록 유도하고, 독립적인 제약 추출기를 통해 이미지에서 구조화된 시각 사실을 얻어 체크리스트와 매칭한다. 매칭 결과를 시각 신뢰도 신호로 변환해 단계 점수를 가중함으로써, 시각에 의존하는 단계는 신뢰도가 낮을 때 보상을 완화하고, 신뢰도가 높을 때는 그대로 유지한다. 실험은 VisualProcess…

저자: Junxin Wang, Dai Guan, Weijie Qiu

본 논문은 비전‑언어 과정 보상 모델(VL‑PRM)이 단계별 추론을 평가할 때 시각 전제의 불확실성을 무시함으로써 발생하는 시스템적 오류를 해결하고자 한다. 기존 VL‑PRM은 이미지에 대한 내부 인식이 정확하지 않아도 논리적 정확도만을 점수화하기 때문에, 시각 전제가 잘못된 경우에도 높은 점수를 부여하거나, 반대로 정확한 전제를 잘못 낮게 평가하는 ‘false positive’와 ‘false negative’가 빈번히 발생한다. 이러한 문제는 특히 Best‑of‑N 재랭킹이나 단계별 오류 진단과 같이 대규모 테스트‑타임 스케일링이 요구되는 상황에서 심각한 성능 저하를 초래한다. 이를 극복하기 위해 저자들은 Explicit Visual Premise Verification(EVPV)이라는 경량 검증 인터페이스를 제안한다. EVPV는 두 가지 핵심 구성요소로 이루어진다. 첫째, 정책 모델이 각 추론 단계마다 시각 전제를 명시적으로 기술하도록 프롬프트한다. 이 전제는 자연어 형태의 시각 사실(예: “반지름이 3이다”, “A와 B 사이의 거리는 5cm”) 혹은 null 값으로 표현되며, 전제가 존재하면 νₜ=1, 없으면 νₜ=0으로 표시한다. 둘째, 독립적인 제약 추출기 E_φ가 이미지와 질문을 입력으로 받아 구조화된 시각 제약 집합 C={cₖ}를 생성한다. 제약은 숫자 읽기, 기하 관계, 객체 연결 등 정형화된 JSON 스키마로 표현되며, 한 번의 추출만으로 전체 트레이스에 활용된다. EVPV는 체크리스트 V와 제약 C를 매칭해 각 전제 vⱼ에 대한 지원 점수 sⱼ를 계산한다. 매칭 방법은 텍스트 유사도, 값 차이 허용 범위, 관계 그래프 일치 등을 복합적으로 적용한다. 이후 sⱼ들을 평균하거나 가중 평균해 전체 시각 신뢰도 r∈

시각 전제 검증으로 신뢰성 강화된 비전‑언어 과정 보상 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기