시각언어 프로그램: 대규모 VLM과 신경‑심볼릭 추론의 융합

초록

시각‑언어 모델(VLM)은 다중모달 과제에서 뛰어난 성능을 보이지만, 체계적인 시각 추론 과제에서는 일관성 없거나 비논리적인 출력을 내는 경우가 많다. 신경‑심볼릭 방법은 해석 가능한 논리 규칙을 유도함으로써 이러한 문제를 해결할 가능성을 제시하지만, 일반적으로 경직된 도메인‑특화 인식 모듈에 의존한다. 우리는 VLM의 인식 유연성과 프로그램 합성의 체계적 추론을 결합한 “Vision‑Language Programs”(VLP)를 제안한다. VLP는 추론을 VLM 내부에 삽입하는 대신, 모델이 생성한 구조화된 시각 설명을 신경‑심볼릭 프로그램으로 컴파일한다. 이렇게 만든 프로그램은 이미지 위에서 직접 실행되며, 과제 제약과 일관성을 유지하고, 인간이 이해할 수 있는 설명을 제공해 쉬운 단축 경로 완화가 가능하도록 한다. 합성 및 실세계 데이터셋에 대한 실험 결과, VLP는 복잡한 논리 추론이 요구되는 과제에서 직접 프롬프트나 구조화된 프롬프트보다 우수한 성능을 보였다.

상세 요약

본 논문은 현재 가장 활발히 연구되고 있는 대규모 시각‑언어 모델(VLM)의 한계를 정확히 짚어낸다. VLM은 사전학습된 거대 언어 모델과 이미지 인코더를 결합해 “이미지 → 텍스트” 혹은 “텍스트 → 이미지” 변환을 수행하지만, 복잡한 논리 연산이나 다단계 추론이 요구되는 상황에서는 일관된 답변을 생성하지 못한다는 점이 여러 최근 연구에서 보고되었다. 이러한 현상은 모델이 “시각적 사실”을 단순히 통계적 연관성으로 학습하기 때문에, 명시적인 규칙이나 제약 조건을 내부에 보유하지 못한다는 근본적인 구조적 한계에서 비롯된다.

신경‑심볼릭 접근법은 전통적인 심볼릭 AI가 제공하는 명시적 논리 규칙과, 딥러닝이 제공하는 강력한 퍼셉션 능력을 결합한다는 점에서 매력적이다. 그러나 기존 방법들은 대개 고정된 도메인‑특화 객체 탐지기나 세그멘테이션 모듈에 의존한다. 이는 새로운 도메인이나 복잡한 시각적 변형에 대해 확장성이 떨어진다는 단점을 만든다.

VLP(Vision‑Language Programs)는 이러한 두 접근법의 장점을 절충한다. 핵심 아이디어는 VLM을 “시각적 설명 생성기”로 활용하고, 그 설명을 구조화된 형태(예: 트리, 그래프, 혹은 DSL)로 변환한 뒤, 이를 신경‑심볼릭 프로그램으로 컴파일한다는 것이다. 구체적인 흐름은 다음과 같다.

시각적 설명 생성: 프롬프트를 통해 VLM에게 이미지에 대한 상세한 서술을 요구한다. 이때 모델은 “색상”, “위치”, “관계” 등 인간이 이해하기 쉬운 속성을 포함한 문장을 출력한다.
구조화 및 파싱: 출력된 자연어 설명을 사전 정의된 문법에 따라 파싱해 추상 구문 트리(AST) 혹은 논리식으로 변환한다. 이 단계에서 오류 검출 및 정규화가 이루어져, 모호한 표현이 논리적 형태로 명확히 정리된다.
프로그램 컴파일: 파싱된 논리식은 신경‑심볼릭 실행 엔진에 전달되어, 이미지 픽셀 수준의 연산(예: 영역 추출, 관계 판단)과 결합된 프로그램 코드로 변환된다. 이 코드는 이미지에 직접 적용되어, “색상이 빨강이고 왼쪽에 있는 객체”와 같은 제약을 정확히 검증한다.
설명 및 검증: 프로그램 실행 결과와 함께, 원본 자연어 설명이 그대로 인간에게 제공된다. 따라서 사용자는 모델이 어떤 논리적 경로를 택했는지 직관적으로 파악할 수 있다.

이러한 파이프라인은 두 가지 중요한 장점을 제공한다. 첫째, 시스템적 일관성이다. 프로그램은 명시적 제약을 만족하도록 설계되었기 때문에, 동일한 입력에 대해 언제나 동일한 논리적 결론을 도출한다. 둘째, 해석 가능성이다. 인간이 이해할 수 있는 자연어 설명과 프로그램 코드가 동시에 제공되므로, 오류 원인 분석 및 “shortcut learning”을 손쉽게 차단할 수 있다.

실험에서는 합성 데이터셋(예: CLEVR‑style)과 실제 이미지 데이터셋(예: GQA, VQA‑2) 모두에서 VLP가 기존 직접 프롬프트 방식이나 구조화된 프롬프트(Chain‑of‑Thought)보다 높은 정확도와 일관성을 보였다. 특히 복수의 논리 연산(교집합, 차집합, 순서 관계 등)이 요구되는 과제에서 성능 격차가 두드러졌다. 이는 VLP가 “시각적 사실 → 논리적 규칙 → 실행”이라는 명확한 흐름을 갖추고 있기 때문으로 해석된다.

결론적으로, VLP는 대규모 VLM의 풍부한 퍼셉션 능력을 유지하면서, 신경‑심볼릭 프로그램을 통해 체계적인 추론을 수행한다는 점에서 차세대 멀티모달 AI 시스템의 설계 방향을 제시한다. 향후 연구에서는 보다 복잡한 자연어 질의에 대한 자동 파싱 정확도 향상, 프로그램 최적화, 그리고 실시간 인터랙션을 위한 경량 엔진 구축 등이 기대된다.

초록

상세 요약

📜 논문 원문 (영문)