인공지능 일반성 평가를 위한 신호 수준 벤치마크
초록
AGITB는 12개의 명시적 공리와 12개의 자동화된 테스트로 구성된 신호‑레벨 벤치마크이다. 모델은 의미를 알 수 없는 10비트 시계열을 관찰하고 다음 입력을 예측함으로써 학습·적응·일반화를 평가받는다. 현재의 AI 시스템은 모든 테스트를 통과하지 못했으며, 이 프레임워크는 일반 지능 향상의 정량적 기준을 제공한다.
상세 분석
본 논문은 인공지능 일반성을 평가하기 위한 새로운 프레임워크 AGITB를 제안한다. AGITB는 인간 뇌의 피질 연산 원리를 모방하여, 고수준의 기호나 언어가 아닌 저수준 이진 신호 자체에서 패턴을 학습하고 예측하도록 설계되었다. 핵심은 12개의 공리로 정의된 요구사항을 모두 만족해야만 성공으로 간주한다는 점이다. 공리에는 결정성(determinism), 적응성(adaptability), 일반화(generalisation), 메타학습 능력, 학습 시간 제한, 자기 일관성, 구성 동일성 판단 가능성 등이 포함된다. 각 공리는 자동화된 테스트로 구현되며, 테스트는 모델의 복제본을 독립적으로 초기화한 뒤 동일 환경에서 5,000회 이상 반복 실행한다. 성공 기준은 외부 정확도나 손실과 같은 전통적 메트릭이 아니라, 복제본 간 상대적 일관성 및 우월성이다. 이는 기존 벤치마크가 갖는 ‘정답 기반’ 편향을 제거하고, 모델이 단순히 데이터 양을 늘려 기억하거나 브루트포스 전략을 쓰는 것을 방지한다. 논문은 형식적 정의를 통해 예측(prediction), 모델 업데이트(update), 학습(learning), 학습 시간(learning time) 등을 수학적으로 명시한다. 특히, 학습 시간 τ_A(ϕ)를 입력 시퀀스 길이와 최소 학습 단계 수의 곱으로 정의함으로써, 모델이 언제 정확히 예측을 시작했는지를 정량화한다. 또한, 모델 구성(M)과 구성 동등성 판단 메커니즘을 사전에 제공하도록 요구함으로써, 블랙박스 모델이라도 내부 상태 비교가 가능하도록 설계했다. 실험 결과, 현재 공개된 대형 언어 모델, 트랜스포머 기반 시계열 예측기, 강화학습 에이전트 등은 일부 테스트는 통과하지만 12개 전부를 만족하지 못한다. 이는 AGITB가 실제로 일반 지능의 핵심 요소를 포착하고 있음을 시사한다. 마지막으로, 코드와 데이터셋을 GitHub에 공개함으로써 재현성과 확장성을 보장한다. 전체적으로 AGITB는 ‘신호 수준’이라는 새로운 평가 차원을 도입함으로써, 인공지능이 인간 수준의 일반 학습 능력에 도달했는지를 보다 엄격하고 해석 가능한 방식으로 측정할 수 있는 중요한 도구가 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기