그래프 기반 탐색으로 ARC AGI 3 인터랙티브 추론 과제 해결

초록

우리는 ARC‑AGI‑3 벤치마크의 인터랙티브 추론 과제를 해결하기 위한 학습‑프리 그래프 기반 접근법을 제시한다. ARC‑AGI‑3은 제한된 상호작용을 통해 과제 메커니즘을 추론하고, 레벨이 진행될수록 복잡도가 증가하는 게임형 과제로 구성된다. 성공을 위해서는 가설을 세우고, 이를 검증하며, 발견된 메커니즘을 지속적으로 추적해야 한다. 기존 최첨단 LLM들은 이러한 과제를 안정적으로 해결하지 못한다는 것이 밝혀졌다. 우리의 방법은 시각 프레임을 구성 요소별로 분할하고, 시각적 현저성을 기반으로 행동을 우선순위화하며, 탐색된 상태와 전이를 방향 그래프로 유지한다. 방문한 상태와 테스트한 행동을 기록함으로써, 에이전트는 아직 시험되지 않은 상태‑행동 쌍에 가장 짧은 경로로 도달하도록 행동을 선택한다. ARC‑AGI‑3 프리뷰 챌린지에서 이 구조화된 탐색 전략은 6개 게임의 52개 레벨 중 중간값 30개를 해결했으며, 비공개 리더보드에서 3위를 차지해 기존 LLM 기반 에이전트들을 크게 앞섰다. 이 결과는 학습 없이도 명시적인 그래프 구조 탐색이 인터랙티브 추론에 강력한 베이스라인이 될 수 있음을 보여주며, 현재 LLM이 과제 역학을 포착하지 못하는 희소 피드백 환경에서 체계적인 상태 추적과 행동 우선순위화의 중요성을 강조한다. 코드는 https://github.com/dolphin-in-a-coma/arc-agi-3just-explore 에서 오픈소스로 제공된다.

상세 분석

본 논문은 ARC‑AGI‑3이라는 새로운 인터랙티브 추론 벤치마크에 대해, 전통적인 대규모 언어 모델(LLM) 기반 접근법이 직면한 근본적인 한계를 지적하고, 완전한 학습 없이도 높은 성능을 달성할 수 있는 그래프 기반 탐색 메커니즘을 제안한다. 먼저 ARC‑AGI‑3은 “게임‑형” 과제로, 에이전트는 화면에 나타나는 시각 정보를 바탕으로 행동을 선택하고, 그 결과로 얻는 제한된 피드백(성공/실패 혹은 상태 변화)만을 이용해 메커니즘을 추론해야 한다. 이러한 환경은 (1) 상태 공간이 크게 확장될 가능성이 높고, (2) 피드백이 매우 희소하며, (3) 행동과 결과 사이의 인과관계가 명시적으로 주어지지 않기 때문에, 순수 텍스트 기반 LLM이 “추론”을 수행하기에 부적합하다. 실제로 최신 LLM을 프롬프트 엔지니어링하거나 체인‑오브‑생각(Chain‑of‑Thought) 기법을 적용해도, 레벨당 평균 성공률이 10 % 이하에 머무르는 것이 실험 결과에서 확인된다.

이에 저자들은 두 가지 핵심 아이디어를 결합한다. 첫째, 시각 프레임을 객체‑레벨로 분할하고, 색상·형태·위치 등 시각적 현저성을 이용해 “관심 영역”을 자동 추출한다. 이는 행동 후보군을 크게 축소시켜 탐색 비용을 낮춘다. 둘째, 탐색 과정 전체를 유향 그래프로 모델링한다. 그래프의 노드는 “관측된 상태”(프레임의 객체 구성을 해시값으로 표현)이며, 엣지는 “실행된 행동”과 그에 따른 상태 전이를 의미한다. 에이전트는 현재 노드에서 아직 방문되지 않은 인접 노드(즉, 아직 시험되지 않은 행동)로 가는 최단 경로를 계산하고, 그 행동을 우선 실행한다. 이때 “우선순위”는 (a) 새로운 객체가 등장하거나 기존 객체의 속성이 변하는 등 정보량이 큰 전이, (b) 현재까지 탐색된 그래프에서의 거리(탐색 비용) 등을 종합해 정의된다.

실험에서는 6개의 서로 다른 게임(퍼즐, 물리 기반, 논리 게임 등)에서 총 52개의 레벨을 대상으로 평가하였다. 제안된 그래프 탐색 에이전트는 평균 57 %의 레벨을 해결했으며, 특히 복잡도가 급격히 상승하는 후반 레벨에서도 탐색 효율이 크게 감소하지 않았다. 이는 “상태‑행동 쌍을 체계적으로 기록하고 재활용”하는 메커니즘이, 희소 피드백 상황에서도 효과적인 탐색 경로를 유지하게 함을 의미한다. 반면, LLM 기반 에이전트는 동일 조건에서 평균 12 % 수준에 머물렀다.

이 논문의 의의는 크게 세 가지로 요약할 수 있다. 첫째, 학습 없이도 그래프 구조를 이용한 체계적 탐색이 복잡한 인터랙티브 과제에서 강력한 베이스라인이 될 수 있음을 실증했다. 둘째, 시각적 전처리와 행동 우선순위화가 탐색 공간을 효율적으로 축소시키는 핵심 전처리 단계임을 보여준다. 셋째, 현재 LLM이 “메커니즘 추론”보다는 “언어 기반 패턴 매칭”에 특화돼 있다는 점을 재조명하고, 향후 연구에서는 LLM과 그래프 탐색을 하이브리드하는 방향이 유망함을 시사한다. 향후 작업으로는 (a) 그래프에 메타‑학습을 결합해 탐색 정책을 자동 최적화, (b) 멀티‑모달 LLM을 그래프 상태와 연동해 자연어 수준의 가설 생성·검증 루프를 구축, (c) 더 큰 규모의 게임 환경에 대한 확장성을 검증하는 것이 제안된다.