도구 인식 시각 추론을 위한 DWIM: 불일치 인식 워크플로우와 인스트럭션 마스킹 튜닝
초록
DWIM은 시각 추론에서 도구 사용의 오류를 자동으로 탐지하고, 효과적인 워크플로우만을 학습에 활용하도록 설계된 두 단계(불일치‑인식 워크플로우 생성, 인스트럭션‑마스킹 미세조정) 접근법이다. 이를 통해 기존의 고정된 LLM 기반 방법보다 높은 정확도와 일반화 능력을 달성한다.
상세 분석
DWIM 논문은 시각 추론(Visual Reasoning, VR) 분야에서 “도구 인식(tool‑awareness)”이라는 핵심 결함을 해결하고자 한다. 기존의 컴포지셔널 VR 접근법은 대형 언어 모델(LLM)을 플래너로 사용해 작업을 서브태스크로 분해하고, 외부 도구(예: 객체 탐지, OCR, 검색 엔진 등)를 호출한다. 그러나 대부분은 사전 학습된 LLM을 그대로 사용하고, 단일 턴(한 번의 계획) 방식에 머물러 도구의 실제 동작 오류를 반영하지 못한다. 이로 인해 (1) 도구 선택·사용이 비효율적이며, (2) 툴이 제공하는 피드백이 부정확할 경우 전체 워크플로우가 실패하고, (3) 훈련 데이터가 부족해 모델이 효과적인 도구 활용을 학습하기 어렵다.
DWIM은 두 가지 핵심 기법으로 이 문제를 해결한다. 첫 번째는 **불일치‑인식 워크플로우 생성(Discrepancy‑aware Workflow Generation)**이다. 여기서는 에이전트가 다중 턴 상호작용을 수행하면서 각 단계에서 도구 실행 결과와 정답(y) 사이의 ‘불일치’를 검사한다. 불일치가 감지되면 “Rethink” 단계가 삽입되어 모델이 기존 행동을 재고하고 대체 도구 혹은 파라미터를 탐색한다. 이 과정은 알고리즘 1에 명시된 바와 같이, 환경 피드백 e_t와 정답 y를 조건으로 정책 π_θ를 재귀적으로 업데이트한다. 결과적으로 동일한 질문에 대해 여러 시도(think‑code‑done 루프)를 거쳐 성공률이 높은 워크플로우 집합을 자동으로 수집한다. 기존 방법이 최종 정답만을 기준으로 워크플로우를 필터링하던 것과 달리, DWIM은 중간 단계의 도구 효율성까지 평가한다는 점이 차별점이다.
두 번째는 **인스트럭션‑마스킹 미세조정(Instruct‑Masking Fine‑tuning)**이다. 수집된 워크플로우를 “행동 시퀀스”로 간주하고, 효과적인 도구 사용(예: 올바른 파라미터, 적절한 API 호출) 부분을 마스크한다. 마스크된 토큰은 모델이 주변 컨텍스트와 이전 단계의 성공/실패 설명을 바탕으로 예측하도록 학습한다. 반면 마스크되지 않은 부분에는 실패 사례와 그 원인(불일치 설명, 재고 생각)이 그대로 남아 있어 모델이 “왜 실패했는가”를 학습하게 만든다. 이렇게 하면 단순히 전체 워크플로우를 그대로 복제하는 SFT 방식보다 노이즈를 억제하고, 도구 사용에 대한 인과관계를 명시적으로 학습할 수 있다. 또한 마스크 기반 데이터 증강을 통해 실제 훈련 샘플 수를 효과적으로 확대한다.
실험에서는 GQA, VCR, OK-VQA 등 대표적인 시각 추론 벤치마크와 복합 카운팅·시각적 상식 추론 데이터셋을 사용했다. DWIM은 기존 최첨단 모델(HYDRA, VisProg 등) 대비 평균 3~5%p의 정확도 향상을 보였으며, 특히 도구 오류가 빈번한 상황(예: 복잡한 객체 관계 추론)에서 성능 격차가 크게 확대되는 것을 확인했다. Ablation 연구에서는 (1) 불일치‑인식 없이 단일 턴 워크플로우만 사용했을 때 성능이 급격히 떨어지고, (2) 마스크 없이 전체 워크플로우를 그대로 복제했을 때도 동일하게 성능 저하가 발생함을 보여, 두 구성 요소가 상호 보완적임을 입증했다.
기술적 기여는 다음과 같다.
- 불일치‑인식 워크플로우 생성: 도구 사용 중 발생하는 실제 오류를 자동으로 탐지·수정하고, 다중 시도 과정을 통해 고품질 학습 샘플을 확보한다.
- 인스트럭션‑마스킹 미세조정: 효과적인 도구 행동만을 학습하도록 강제함으로써 노이즈를 억제하고, 도구‑중심 추론 능력을 강화한다.
- 멀티턴 에이전시 프레임워크: 기존 단일‑플랜 방식과 달리 환경 피드백을 순차적으로 누적·반영해 점진적 사고와 행동을 가능하게 한다.
이러한 설계는 “LLM을 도구‑인식 전문가로 전환”한다는 큰 비전을 제시한다. 향후 연구에서는 (a) 도구 라이브러리 확장 시 자동 불일치 탐지 스케일링, (b) RL 기반 보상 설계와 결합해 더욱 정교한 정책 학습, (c) 인간‑인증 워크플로우와의 혼합 학습을 통해 안전성을 높이는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기