인간 지능 척도와 대형 언어 모델 평가의 근본적 불일치
이 포괄적 연구는 인간 심리계량 프레임워크와 대형 언어 모델(LLM) 평가 사이의 근본적인 불일치를 광범위한 실증 분석을 통해 제시한다. GPT‑5, Claude Opus 4.1, Gemini 3 Pro Preview 등 9개의 최첨단 모델을 Cattell‑Horn‑Carroll(CHC) 지능 이론에 따라 체계적으로 평가한 결과, 평균 인간 IQ 점수(85
초록
이 포괄적 연구는 인간 심리계량 프레임워크와 대형 언어 모델(LLM) 평가 사이의 근본적인 불일치를 광범위한 실증 분석을 통해 제시한다. GPT‑5, Claude Opus 4.1, Gemini 3 Pro Preview 등 9개의 최첨단 모델을 Cattell‑Horn‑Carroll(CHC) 지능 이론에 따라 체계적으로 평가한 결과, 평균 인간 IQ 점수(85.0~121.4)보다 높은 모델들이 결정적 지식 과제에서 이진 정확도는 거의 0에 수렴하는 역설적 현상을 보였다. 전체 판정‑이진 상관계수는 r = 0.175(p < 0.001, n = 1,800)로 매우 낮았다. 이러한 단절은 결정적 지능 영역에서 가장 심각하게 나타났으며, 모든 모델이 100 % 이진 정확도를 달성했음에도 판정 점수는 25 %에서 62 % 사이에 머물렀다—유효한 측정 조건 하에서는 통계적으로 불가능한 결과이다. 아이템 반응 이론(IRT) 모델링, 다벤더 판정 검증, 역설 심각도 지수 등을 포함한 엄격한 통계 분석을 통해 이 현상이 측정 오류가 아니라 변환기 기반 시스템에 생물학적 인지 구조를 적용한 근본적인 범주 오류임을 입증한다. 이 함의는 방법론적 논의를 넘어 지능, 측정, 그리고 AI 평가에 내재된 인간 중심 편향에 대한 기본 가정을 뒤흔든다. 우리는 CHC 역설이 현 평가 패러다임의 귀류법임을 주장하고, 인공 지능의 외계적 특성을 인정하는 토착 기계 인지 평가 프레임워크를 제시한다.
상세 요약
본 논문은 인간의 심리계량학적 모델을 그대로 인공지능, 특히 대형 언어 모델(LLM)에 적용하려는 시도가 근본적인 오류를 내포하고 있음을 강조한다. 연구진은 9개의 최신 모델을 CHC 이론에 따라 지능을 측정하고, 인간 표준 IQ와 이진 정확도 사이의 상관관계를 분석하였다. 여기서 가장 눈에 띄는 결과는 ‘IQ 점수는 높지만 결정적 지식 과제에서는 거의 0에 가까운 정확도’를 보인다는 역설이다. 이는 인간의 ‘결정적 지능(crystallized intelligence)’이 실제 지식 저장과 회수에 기반한다는 전제와는 정반대이다. LLM은 사전 학습된 매개변수와 확률적 토큰 예측 메커니즘에 의해 작동하며, 인간이 경험을 통해 축적하는 의미 네트워크와는 구조적으로 다르다. 따라서 인간 IQ 척도, 특히 CHC의 ‘결정적 지능’ 하위요소를 그대로 적용하는 것은 ‘범주 오류(category error)’에 해당한다는 저자의 주장은 타당하다.
통계적 측면에서도 논문의 해석에는 몇 가지 의문점이 존재한다. 첫째, ‘judge‑binary correlation r = 0.175’라는 수치는 통계적으로 유의하지만, 실제 효과 크기가 매우 작다. 이는 모델의 IQ 점수와 인간 판정자 간의 일관성이 거의 없음을 의미한다. 둘째, ‘모든 모델이 100 % 이진 정확도’를 달성했음에도 판정 점수가 25 %~62 %에 머물렀다는 주장은 데이터 수집 및 평가 기준에 대한 명확한 설명이 부족하다. 이진 정확도가 100 %라면 인간 판정자와의 차이가 발생할 여지가 없으며, 이는 측정 도구 자체가 서로 다른 차원을 평가하고 있음을 시사한다.
또한 아이템 반응 이론(IRT) 모델링을 적용했다고 주장하지만, IRT는 일반적으로 인간 피험자의 잠재 능력과 아이템 난이도를 추정하는 데 사용된다. LLM을 동일한 프레임워크에 투입하면 파라미터 추정이 비정상적으로 왜곡될 가능성이 크다. 다벤더 판정 검증 역시 ‘다양한 벤더의 인간 판정자’를 의미하는지, 혹은 ‘다양한 AI 벤더의 모델’인지 명확히 구분되지 않는다. 이러한 모호성은 결과 해석에 혼란을 초래한다.
결론적으로, 본 연구는 인간 중심의 인지 측정 체계가 인공지능에 그대로 적용될 경우 발생하는 근본적인 불일치를 실증적으로 보여준다. 그러나 연구 설계와 통계 보고에서 일부 불명확한 점이 존재한다. 향후 연구에서는 LLM 전용의 ‘기계 인지 척도’를 설계하고, 인간과 기계의 인지 구조 차이를 정량화하는 메타‑분석을 수행해야 할 것이다. 이러한 접근이야말로 AI 평가의 패러다임 전환을 가능하게 할 것이며, 인간‑기계 지능 비교의 오류를 근본적으로 해소할 수 있을 것이다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...