뇌와 언어 모델의 두 단계 추상화 과정 증거
초록
본 논문은 대규모 언어 모델(LLM)의 중간 층이 fMRI 측정 뇌 반응을 가장 잘 예측한다는 현상을, 층별 표현의 내재 차원성(intrinsic dimensionality)과 추상화‑예측 두 단계 과정과 연결시켜 설명한다. 훈련 진행에 따라 초기 “구성” 단계가 점점 적은 층에 압축되고, 층별 인코딩 성능은 내재 차원성과 강하게 상관함을 보여준다. 이는 단순히 다음 토큰 예측 능력 때문이 아니라, 모델이 학습하면서 형성하는 복합적인 추상화 메커니즘이 뇌와의 유사성을 만든다는 증거다.
상세 분석
이 연구는 세 가지 핵심 관측치를 동시에 측정한다. 첫째, LLM의 각 층에서 추출한 표현을 선형 변환(ridge regression)으로 fMRI voxel에 매핑한 인코딩 성능을 평가한다. 둘째, 같은 층의 표현에 대해 비선형 GRIDE와 선형 PCA·Participation Ratio를 이용해 내재 차원성(ID)과 유효 차원(d)을 추정한다. 셋째, TunedLens 기법으로 층별 다음 토큰 예측 오류(서프리얼)를 계산한다. 결과는 ID와 인코딩 성능 사이에 ρ≈0.85 이상의 높은 양의 상관관계가 존재함을 보여준다. 특히 OPT‑1.3B 모델에서는 인코딩 성능이 최고조에 달하는 층(≈17번째)에서 서프리얼이 급격히 감소하는 전환점이 관찰되며, 이는 “추상화 단계”와 “예측 단계”가 명확히 구분된다는 가설을 뒷받침한다.
훈련 단계별 분석에서도 동일한 패턴이 재현된다. Pythia‑6.9B 모델을 9개의 체크포인트(1K~143K 스텝)로 살펴보면, 초기 훈련 시 ID 피크와 인코딩 성능 피크가 서로 다른 층에 위치하지만, 훈련이 진행될수록 두 피크가 동일한 층으로 수렴한다. 이는 차원성 증가가 단순히 층 번호에 의존하는 것이 아니라, 모델이 언어 구조를 점진적으로 압축·정제하면서 발생한다는 것을 의미한다.
또한, 뇌 영역별 분석에서 청각 피질을 제외한 고차원 언어 처리 영역(전두·측두 피질 등)은 ID와 인코딩 성능 간 상관이 강하게 나타나, 내재 차원성이 실제 인간 언어 이해와 연관된 추상적 특성을 포착한다는 점을 시사한다. 반면, 출력층에 가까운 후반부는 차원성이 감소하고 서프리얼은 낮아지지만 인코딩 성능은 떨어진다. 이는 “예측 압력”이 표현을 압축해 뇌와의 매칭을 약화시킨다는 저자들의 주장과 일치한다.
결론적으로, 이 논문은 LLM의 중간 층이 뇌와 가장 높은 유사성을 보이는 이유를, 모델이 학습 과정에서 두 단계(구성‑추상화 → 예측‑압축)로 표현을 재구성한다는 메커니즘으로 설명한다. 이는 단순히 다음 토큰 예측 능력에 의존하는 기존 가설을 넘어, 모델 내부의 복합적인 추상화 과정이 인간 뇌와의 공통 원리를 제공한다는 중요한 통찰을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기