인공지능과 인간의 난이도 인식 불일치: 대규모 모델이 보여준 한계

초록

문항(질문 또는 과제) 난이도에 대한 정확한 추정은 교육 평가에서 핵심이지만, 초기 데이터가 부족한 상황에서는 어려움을 겪는다. 대형 언어 모델이 인간 수준을 넘어서는 문제 해결 능력을 보여주고 있음에도 불구하고, 이들이 학습자의 인지적 어려움을 얼마나 잘 파악할 수 있는지는 아직 미지수이다. 본 연구에서는 의료 지식과 수학적 추론 등 다양한 분야에 걸쳐 20여 개 모델을 대상으로 인간‑AI 난이도 정렬(Human‑AI Difficulty Alignment)을 대규모 실증 분석하였다. 그 결과, 모델 규모를 키운다고 해서 인간과의 정렬이 향상되는 것이 아니라, 오히려 모델들은 인간과는 별개의 “기계적 합의”에 수렴하는 체계적인 불일치를 보였다. 높은 성능을 가진 모델일수록 난이도 추정이 오히려 부정확해졌으며, 모델이 특정 숙련도 수준을 모방하도록 명시적으로 프롬프트를 주어도 학생의 능력 제한을 시뮬레이션하는 데 어려움을 겪었다. 또한 모델 자체가 자신의 한계를 예측하는 내적 통찰력도 부족함을 확인하였다. 이러한 결과는 뛰어난 문제 해결 능력이 인간의 인지적 어려움을 이해한다는 의미와는 거리가 멀며, 현재 모델을 자동 난이도 예측에 활용하는 데에는 근본적인 한계가 존재함을 시사한다.

상세 요약

본 논문은 교육 평가에서 가장 오래된 난제 중 하나인 “콜드 스타트” 문제, 즉 사전 학습 데이터가 부족한 상황에서 문항 난이도를 어떻게 추정할 것인가에 대한 새로운 관점을 제시한다. 연구진은 20여 개에 달하는 최신 대형 언어 모델(Large Language Models, LLM)을 선정하고, 의료 지식 테스트, 대학 수준 수학 문제, 일반 상식 퀴즈 등 다섯 개 이상의 도메인에서 인간 학습자와 동일한 문제 집합을 제공하였다. 각 모델에 대해 (1) 정답 정확도, (2) 모델이 자체적으로 산출한 난이도 점수, (3) 인간 응답자들의 실제 성공률을 비교함으로써 “난이도 정렬” 정도를 정량화하였다.

흥미로운 점은 모델 규모가 커질수록 정답 정확도는 꾸준히 상승했음에도 불구하고, 난이도 추정 정확도는 오히려 정체되거나 감소했다는 것이다. 이는 모델이 “문제 자체를 풀어내는 능력”과 “문제를 푸는 데 필요한 인간의 인지적 자원”을 동일시하지 못한다는 근본적인 한계를 드러낸다. 특히, 고성능 모델은 정답을 빠르게 도출하지만, 인간이 겪는 ‘틀림’이나 ‘시간 소모’를 반영한 난이도 점수를 생성하지 못한다. 이는 모델이 내부적으로 “인간과 동일한 사고 흐름”을 시뮬레이션하지 않고, 오히려 최적화된 연산 경로를 따라 문제를 해결하기 때문으로 해석될 수 있다.

또한, 연구진은 모델에게 “초등학생 수준으로 답하라”, “전문가 수준으로 답하라”와 같은 프롬프트를 제공했지만, 모델이 실제로 해당 수준의 제한을 적용해 답변을 생성하는 데는 한계가 있었다. 모델은 여전히 전체 지식 베이스를 활용하려는 경향이 강했으며, 제한된 능력치를 반영한 오류 패턴을 재현하지 못했다. 이는 현재 프롬프트 엔지니어링만으로는 모델의 ‘자기 제한’ 메커니즘을 구현하기 어렵다는 점을 시사한다.

더 나아가, 모델 스스로 자신의 답변에 대한 신뢰도나 한계를 예측하도록 요구했을 때, 대부분의 경우 과도하게 높은 자신감을 보였으며, 실제 정답률과 큰 차이를 보였다. 이는 메타인지적 introspection, 즉 “내가 무엇을 모르는가”를 판단하는 능력이 현 모델에선 거의 결여되어 있음을 의미한다.

이러한 결과는 교육 기술 분야에서 LLM을 자동 난이도 추정 도구로 활용하려는 시도에 심각한 경고를 제공한다. 모델의 고성능이 반드시 교육 현장의 실제 학습자와의 정렬을 보장하지 않으며, 오히려 모델 간에 공유되는 ‘기계적 합의’를 형성한다는 점은 향후 연구에서 인간‑기계 상호작용을 설계할 때, 모델의 메타인지 능력 강화와 인간 인지 모델링을 별도로 고려해야 함을 강조한다.

초록

상세 요약

📜 논문 원문 (영문)