복잡도와 비계산가능성으로 인공지능을 평가한다: 재귀 압축 기반 SuperARC 테스트

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 알고리즘 정보 이론(AIT)의 원리를 활용해 인간 중심의 편향을 배제한 지능 측정 지표인 SuperARC를 제안한다. CTM·BDM을 이용한 재귀 압축을 기준으로 모델의 추론·예측 능력을 정량화하고, 최신 대형 언어 모델(LLM)과 하이브리드 신경‑심볼릭 시스템을 비교한다. 실험 결과 LLM은 일부 과제에서 우수하지만 최신 버전에서 성능 퇴보가 관찰되며, 심볼릭 요소를 결합한 접근이 압축 효율과 예측 정확도에서 더 뛰어남을 보인다.

상세 분석

이 논문은 인공지능의 일반화와 초지능을 평가하기 위해 ‘인간‑비인간 중립적’ 메트릭을 설계하려는 시도로서, 기존의 벤치마크가 갖는 인간 중심 질문·정답 의존성, 그리고 단순 통계적 패턴 매칭에 머무는 한계를 명확히 지적한다. 핵심 이론적 기반은 알고리즘 정보 이론(AIT)이며, 특히 알고리즘 복잡도(칸틴 복잡도)와 알고리즘 확률(솔로몬오프) 개념을 활용한다. 논문은 두 가지 실용적 근사 방법인 Coding Theorem Method(CTM)와 Block Decomposition Method(BDM)를 도입해 짧은 문자열·시퀀스·이미지의 최소 설명 길이를 추정한다. CTM·BDM는 기존의 GZIP·LZW와 같은 통계적 압축과 달리 데이터의 재귀적 규칙성을 포착함으로써 ‘진정한’ 무작위와 구조적 복잡도를 구분한다는 점에서 중요한 차별점을 가진다.

실험 설계는 크게 두 파트로 나뉜다. 첫 번째는 이진·비이진 시퀀스에 대한 다음‑숫자 예측 과제로, ‘클라이머’(재귀적 규칙을 가진 저복잡도 시퀀스)와 무작위 시퀀스를 구분한다. 여기서 Lag‑Llama가 70 %의 정확도로 가장 높은 성능을 보였으며, TimeGPT‑1·Chronos는 50 % 수준에 머물렀다. 무작위 시퀀스에서는 모든 모델이 50 %에 근접해 추측 수준에 머물렀다. 두 번째 파트는 자유형 생성 과제로, 모델에게 복잡도가 증가하는 목표 시퀀스를 생성하도록 요구하고, 생성된 모델·공식의 압축 길이(LZW·ZIP)와 BDM 점수를 비교한다. 결과는 LLM이 복잡도가 높아질수록 예측 정확도가 급격히 떨어지는 반면, 하이브리드 신경‑심볼릭 접근은 압축 효율과 예측 정확도 모두에서 일관된 우위를 보였음을 보여준다.

이러한 실험 결과는 두 가지 중요한 함의를 제공한다. 첫째, 현재의 LLM은 통계적 패턴 학습에 강점이 있지만, 재귀적 규칙을 발견하고 이를 압축 형태로 표현하는 ‘알고리즘적 추론’ 능력은 제한적이다. 특히 최신 모델 버전에서 성능이 퇴보하는 현상은 파라미터 규모·데이터 양만으로는 복잡도 기반 지능을 향상시킬 수 없음을 시사한다. 둘째, 심볼릭 연산을 포함한 신경‑심볼릭 시스템은 알고리즘적 압축을 직접 활용함으로써 ‘보편적 지능(UAI)’에 근접한 성능을 보인다. 이는 AIT가 제시하는 ‘예측력은 알고리즘 공간에서의 압축과 비례한다’는 이론적 주장과 일치한다.

한계점으로는 CTM·BDM 자체가 계산적으로 비용이 많이 드는 비계산가능성에 가까운 방법이며, 실험에 사용된 시퀀스가 인공적으로 생성된 점, 그리고 인간 평가와의 직접적인 비교가 부족한 점을 들 수 있다. 또한, ‘재귀 압축’이라는 개념을 실제 복잡한 현실 세계 데이터(예: 자연어, 비디오)로 확장하는 방법론이 아직 제시되지 않았다. 그럼에도 불구하고, 이 논문은 인공지능 평가에 있어 ‘복잡도·압축 기반’이라는 새로운 패러다임을 제시하고, 향후 AGI·ASI 연구에서 인간 편향을 최소화한 메트릭 설계의 방향성을 제시한다는 점에서 학술적·실용적 의의가 크다.

복잡도와 비계산가능성으로 인공지능을 평가한다: 재귀 압축 기반 SuperARC 테스트

초록

상세 분석

댓글 및 학술 토론

의견 남기기