AI 모델, 인간 수준 추상 추론을 진짜로 할까? 텍스트·시각 양쪽을 파헤치다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 텍스트와 시각 두 입력 형태에서 최신 멀티모달 추론 모델들이 ConceptARC 벤치마크를 통해 인간과 같은 추상 개념을 얼마나 잘 인식하고 활용하는지를 평가한다. 정확도는 텍스트에서 높지만 규칙 분석에서는 표면적 ‘단축키’에 의존하는 경우가 많고, 시각에서는 정확도가 급락하지만 생성된 규칙 중 상당수가 의도된 추상 개념을 포착한다는 역설적인 결과를 제시한다. 또한 추론 토큰 예산과 Python 도구 사용이 성능에 미치는 영향을 실험적으로 분석한다.

상세 분석

이 연구는 ARC‑AGI‑1에서 높은 정확도를 기록한 OpenAI o3‑preview 모델이 실제로 인간 수준의 추상 추론을 수행하는지 의문을 제기하고, 이를 검증하기 위해 보다 단순하고 개념 중심적인 ConceptARC 벤치마크를 선택하였다. ConceptARC는 16개의 기본 공간·의미 개념(예: 위·아래, 안·밖, 동일·다름 등)을 각각 30개의 변형 과제로 구성해 총 480개의 과제를 제공한다. 인간은 91%의 정확도를 보이며, 이는 기존 ARC 평가에서 보고된 64%보다 현저히 높다.

실험에서는 네 개의 최신 멀티모달 “추론” 모델(OpenAI o3, o4‑mini, Google Gemini 2.5 Pro, Anthropic Claude Sonnet 4)과 세 개의 “비추론” 모델(GPT‑4o, Llama 4 Scout, Qwen 2.5 VL 72B)을 평가했다. 각 모델은 (1) 텍스트 입력, (2) 시각 입력 두 가지 모드에서, (3) 추론 토큰 예산을 낮음·중간으로 조절하고, (4) Python 코드 실행 도구 사용 여부를 교차 실험하였다. 모델에게는 출력 격자와 함께 자연어 규칙을 JSON 형태로 반환하도록 요구했으며, 규칙은 인간 평가자가 “correct‑intended”(의도된 추상 개념과 일치), “correct‑unintended”(시연에는 맞지만 의도와는 다른 패턴), “incorrect”(전혀 맞지 않음) 세 클래스로 분류했다.

주요 결과는 다음과 같다. 텍스트 모드에서는 o3가 낮은 노력 설정에서 68.3%의 격자 정확도를 기록했으며, 중간 노력에서는 77.1%까지 상승했다. 그러나 규칙 분석에서는 대부분이 “correct‑unintended” 혹은 “incorrect”에 해당해, 모델이 실제로는 색 인덱스와 같은 표면적 상관관계에 의존하고 있음을 보여준다. 시각 모드에서는 격자 정확도가 6.7% 수준으로 급락했지만, Python 도구를 활성화했을 때 o3는 18.1%까지 상승했고, 규칙 중 약 40% 이상이 “correct‑intended”로 평가되었다. 즉, 모델은 추상 개념을 어느 정도 인식하지만, 이를 이미지에서 정확히 추출하고 적용하는 단계에서 큰 어려움을 겪는다.

추론 토큰 예산을 늘리면 텍스트에서는 전반적인 정확도가 향상되지만, 시각에서는 도구 사용이 없을 경우 큰 효과를 보지 못한다. Python 도구를 이용하면 모델이 이미지 처리 라이브러리를 호출해 격자 크기와 색상 정보를 추출할 수 있어, 추론 과정이 실제 “도구 활용”에 크게 의존한다는 점이 드러났다. 비추론 모델들은 모든 설정에서 5% 이하의 정확도에 머물며, 규칙 생성 자체도 거의 이루어지지 않았다.

이러한 결과는 (1) 단순 정확도 지표만으로는 모델의 추상 추론 능력을 과대평가하기 쉽고, (2) 시각적 입력에서는 모델이 의도된 추상 개념을 인식하더라도 적용 능력이 제한적이라는 점을 시사한다. 또한, “correct‑unintended” 규칙이 빈번히 나타나는 현상은 대규모 신경망이 데이터 내 스푸리어스 패턴을 학습해 높은 정확도를 얻는 전형적인 사례와 일치한다. 따라서 향후 연구는 (가) 규칙 수준의 평가 체계를 표준화하고, (나) 시각 입력에서 추상 개념을 직접적으로 추출·표현할 수 있는 아키텍처를 개발하며, (다) 도구 사용을 자연스럽게 통합하는 메타‑추론 프레임워크를 구축하는 방향으로 나아가야 할 것이다.

AI 모델, 인간 수준 추상 추론을 진짜로 할까? 텍스트·시각 양쪽을 파헤치다

초록

상세 분석

댓글 및 학술 토론

의견 남기기