LLM의 인지 복잡도 선형 인코딩: 블룸 분류 체계와 프로빙 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 내부 표현이 교육학적 블룸 분류 체계의 인지 단계와 선형적으로 구분될 수 있음을 실험적으로 입증한다. 1,128개의 균형 잡힌 질문 데이터를 이용해 네 종류의 최신 오픈‑소스 LLM에서 레이어별 잔차 스트림을 추출하고, 각 레이어마다 로지스틱 회귀 프로브를 학습시켰다. 모든 모델에서 5번째 레이어 전후로 90 % 이상 정확도를 달성했으며, 혼동 행렬은 인접 단계 간 오류가 주로 발생함을 보여 블룸 단계의 순서적 구조가 내재되어 있음을 확인한다.

상세 분석

이 연구는 메커니컬 인터프리터빌리티(Mechanistic Interpretability)와 교육학적 인지 이론을 융합한 독창적인 접근법을 제시한다. 먼저, 저자들은 컴퓨터 과학 강의 질문과 EduQG 데이터셋을 결합해 6단계(기억‑이해‑적용‑분석‑평가‑창조)로 라벨링된 1,128개의 프롬프트를 구축하였다. 각 프롬프트는 길이와 도메인 다양성을 고려해 균형 있게 샘플링되었으며, 이는 레이블 불균형에 의한 프로브 편향을 최소화한다.

실험에 사용된 모델은 Llama‑3.1‑8B‑Instruct, Qwen3‑4B‑Instruct‑2507, Gemma‑3‑4b‑it, DeepSeek‑R1‑Distill‑Llama‑8B 등 네 가지이며, 파라미터 수·깊이·아키텍처가 서로 다르다. 이렇게 다양한 모델을 대상으로 함으로써 관찰된 현상이 특정 아키텍처에 국한되지 않음을 검증한다.

활성화 추출은 디코더‑전용 트랜스포머의 잔차 스트림(residual stream)에서 최종 토큰 위치의 hidden state를 캡처한다. 최종 토큰은 전체 프롬프트를 통합적으로 인코딩하므로, 인지 난이도에 대한 정보를 가장 풍부하게 담고 있다고 가정한다. 레이어 l의 상태 xₗ는 xₗ₊₁ = xₗ + Attn(xₗ) + MLP(xₗ) 형태로 업데이트되며, 이를 통해 각 레이어별 표현을 순차적으로 수집한다.

선형 프로빙은 각 레이어별로 다중 클래스 로지스틱 회귀를 학습시켜 Bloom 레벨을 예측한다. ℓ₂ 정규화와 특성 정규화를 기본 설정으로 사용하고, 80/20 비율의 층화 샘플링으로 훈련·테스트를 분리한다. 이때 프로브의 용량을 제한함으로써 높은 정확도가 내부 표현에 선형적으로 디코딩 가능한 정보가 존재한다는 강력한 증거가 된다.

결과는 두드러진 패턴을 보인다. 초기 레이어에서는 정확도가 낮지만 레이어 5~6을 지나면서 급격히 상승해 90 % 이상에 도달한다. 이를 ‘Cognitive Separability Onset (CSO)’라 명명하고, 대부분의 모델에서 CSO가 5번째 레이어 근처에 위치함을 확인한다. CSO 이후 정확도는 거의 변동이 없으며, 이는 모델이 인지 난이도를 한 번 파악하면 이후 레이어에서 해당 정보를 유지한다는 의미다.

혼동 행렬 분석은 오류가 주로 인접 Bloom 단계 사이에서 발생한다는 점을 강조한다. 예를 들어 ‘적용’과 ‘분석’ 사이, ‘평가’와 ‘창조’ 사이에서 혼동이 빈번히 일어나며, 이는 인간 교육학에서 정의된 단계적 순서와 일치한다. 따라서 모델 내부 표현이 단순히 라벨을 구분하는 것이 아니라, 인간이 정의한 인지 구조를 반영하고 있음을 시사한다.

또한, 레이어‑별 정확도 곡선이 모델마다 유사하게 나타나는 점은 이 현상이 아키텍처‑독립적인 일반 현상임을 암시한다. 이는 LLM이 학습 과정에서 자연스럽게 ‘문제 난이도’를 추상화하고, 이를 선형 서브스페이스에 정렬한다는 가설을 뒷받침한다. 향후 연구에서는 이러한 선형 서브스페이스가 실제 생성 과정에 어떻게 활용되는지, 그리고 프로빙 결과를 기반으로 모델의 행동을 제어할 수 있는지에 대한 인위적 개입(intervention) 실험이 필요하다.

전반적으로 이 논문은 LLM 내부에 인간 수준의 인지 단계 구분이 존재한다는 강력한 증거를 제공하며, 선형 프로빙이라는 간단하면서도 효과적인 도구를 통해 복잡한 인지 구조를 정량화할 수 있음을 보여준다.

LLM의 인지 복잡도 선형 인코딩: 블룸 분류 체계와 프로빙 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기