추상 공간 추론을 위한 체계적 일반화 평가 Compositional ARC
초록
본 논문은 기하학적 변환을 조합한 새로운 과제를 통해 모델의 체계적 일반화 능력을 측정하는 Compositional‑ARC 데이터셋을 제안한다. 메타‑러닝 기반의 컴포지셔널 학습(MLC) 프레임워크를 적용한 5.7 M 파라미터 트랜스포머 인코더‑디코더 모델이, 기존 대형 LLM(o3‑mini, GPT‑4o, Gemini 2.0 Flash)보다 뛰어난 성능을 보이며 ARC Prize 2024 우승 모델(8 B 파라미터)과 동등한 결과를 얻는다. 이는 메타‑러닝이 언어 영역을 넘어 시각적 추론에서도 체계적 일반화를 촉진할 수 있음을 증명한다.
상세 분석
Compositional‑ARC는 10 × 10 격자에 배치된 추상 객체들을 대상으로 다섯 가지 기본 변환(이동, 회전, 반사, 확장, 색상 변경)을 정의하고, 객체의 형태·색상·이웃 관계라는 세 가지 지표를 조합해 레벨 1(두 지표) 및 레벨 2(세 지표) 변환 구성을 만든다. 데이터 생성 과정은 변환의 폐쇄성을 이용해 모든 가능한 조합을 체계적으로 샘플링하고, 변환이 격자 경계를 넘지 않으며 객체가 겹치지 않도록 제약한다. 학습 설정은 ‘에피소드’ 단위로, 각 에피소드는 12개의 학습 예시(기본 변환 및 레벨 1 조합)와 하나의 질의(레벨 2 조합)로 구성된다. 모델은 학습 예시를 통해 시각적 ‘문법’을 추론하고, 질의 입력에 대해 올바른 출력 격자를 생성해야 한다.
MLC 프레임워크는 기존 Lake & Baroni(2023)의 메타‑러닝 방식을 그대로 차용하지만, 입력이 텍스트가 아닌 시각적 그리드이므로 인코더‑디코더가 이미지‑이미지 매핑을 수행한다. 메타‑러닝 단계에서는 매 에피소드마다 변환‑지표 매핑이 무작위로 바뀌어, 모델이 고정된 입력‑출력 관계를 암기하는 대신, 학습 예시로부터 동적으로 규칙을 유도하도록 강제한다. 이렇게 훈련된 5.7 M 파라미터 모델은 레벨 2 조합을 전혀 보지 못했음에도 높은 정확도를 기록했으며, 대형 LLM들은 학습 예시를 활용하더라도 일관된 변환 규칙을 추론하지 못하고 오류를 범했다.
실험 결과는 세 가지 관점에서 의미가 있다. 첫째, 메타‑러닝이 시각적 추론에서도 체계적 일반화를 가능하게 함을 실증한다. 둘째, 파라미터 규모가 작아도 적절한 메타‑학습 설계가 있으면 대형 LLM을 능가할 수 있음을 보여준다. 셋째, 기존 ARC Prize 2024 우승 모델과 동등한 성능을 내면서도 테스트‑타임 트레이닝이 필요 없는 점은 실용성 측면에서 큰 장점이다. 한계점으로는 변환 종류와 파라미터(이동 거리, 회전 각도 등)를 제한했으며, 더 복잡한 3‑D 변환이나 연속적인 변환 시퀀스에 대한 확장 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기