시각‑언어 모델과 프로그램 기반 추론의 결합으로 푸는 Bongard 문제

시각‑언어 모델과 프로그램 기반 추론의 결합으로 푸는 Bongard 문제
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Bongard 문제라는 고전 시각 추론 과제를 해결하기 위해, 대형 언어 모델(LLM)로부터 파라미터화된 파이썬 프로그램을 생성하고 베이지안 최적화를 통해 파라미터를 맞추는 신경‑심볼릭 프레임워크를 제안한다. 제안 방법은 (1) 주어진 규칙을 검증하는 이미지 분류와 (2) 규칙을 처음부터 유도하는 두 과업에서 최신 VLM(GPT‑4o, Claude 3.7)과 비교해 경쟁력 있는 성능을 보이며, 프로그램 기반 검증과 자연어 체인‑오브‑생각(CoT) 방식이 서로 보완한다는 점을 실증한다.

상세 분석

Bongard 문제는 12장의 추상 그림(양쪽 각각 6장)으로 구성된 이진 분류 과제로, 인간은 새로운 시각 특징을 즉석에서 정의하고 이를 기반으로 논리적 구분을 수행한다. 기존 AI 접근법은 순수 심볼릭, 확률적, 혹은 순수 신경망 기반으로 제한된 일반화 능력을 보여왔으며, 최신 VLM조차도 이미지 자체에 대한 직접적인 특징 추출 없이 자연어 규칙만으로는 한계가 있었다. 논문은 이러한 한계를 극복하기 위해 ‘프로그램‑언어 하이브리드’ 전략을 채택한다.

핵심 아이디어는 다음과 같다. ① 가설 생성기(Hypothesis Generator)는 VLM에 현재 문제의 12장 이미지와 몇 개의 참고 규칙을 제공해 여러 후보 자연어 규칙을 샘플링한다. 여기서 ‘커리큘럼’ 개념을 활용해 이전 문제들의 규칙을 컨텍스트로 넣어 다양성을 확보한다. ② 검증기(Verifier)는 각 후보 규칙을 파이썬 코드로 변환하도록 LLM에 요청하고, 변환된 프로그램에 대해 베이지안 최적화를 적용해 파라미터(예: 형태학적 임계값)를 탐색한다. 프로그램이 훈련 이미지(5쌍)에서 0.9 이상의 정확도를 달성하면, 동일 프로그램을 테스트 이미지에 적용해 다수결로 최종 라벨을 결정한다. ③ 프로그램이 충분히 최적화되지 못하면, 검증기는 즉시 CoT 방식으로 전환해 자연어 추론만으로 라벨을 예측한다.

이중 검증 메커니즘은 두 가지 중요한 장점을 제공한다. 첫째, 프로그램 기반 검증은 기하학·수치적 개념(예: ‘원형도’, ‘길이 비율’)을 정확히 모델링할 수 있어, 공간·유사성 관련 문제에서 높은 정확도를 얻는다. 둘째, CoT 전환은 복잡한 개념(예: 숫자 조합, 서브파트 분해)이나 프로그램화가 어려운 고차원 추론에 대해 유연하게 대응한다. 실험 결과, Claude 3.7이 전체 과제에서 GPT‑4o보다 일관되게 우수했으며, 특히 프로그램 검증과 CoT가 서로 보완되는 현상이 뚜렷했다. 프로그램 검증이 성공한 경우 평균 정확도가 85% 이상으로, 인간 평균(≈47%)에 근접했으며, CoT만 사용했을 때는 약 70% 수준에 머물렀다.

또한, 베이지안 최적화 단계에서 15회의 탐색만으로도 파라미터를 충분히 수렴시켰으며, 프로그램이 실패할 경우 LLM에게 재생성 요청을 하는 ‘리파인’ 루프가 전체 성공률을 10% 정도 끌어올렸다. 이와 같은 신경‑심볼릭 루프는 기존 ‘단일 추론 경로’보다 효율적이며, VLM의 풍부한 사전 지식을 프로그램 형태로 구조화함으로써 해석 가능성도 확보한다.

결론적으로, 논문은 시각‑언어 모델과 프로그래밍 기반 추론을 결합한 프레임워크가 Bongard 문제와 같은 고차원 시각‑논리 과제에 효과적임을 입증한다. 이는 AI가 인간처럼 새로운 시각 특징을 즉석에서 정의하고, 이를 정량적·논리적으로 검증하는 능력을 향상시키는 중요한 단계로 평가될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기