대형 언어 모델의 원자 이론

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 근본적인 표현 단위인 “원자(Atom)”를 정의하고, 이를 평가·식별하기 위한 이론적 프레임워크인 Atom Theory를 제시한다. 비유클리드 거리인 Atomic Inner Product(AIP)를 기반으로 원자를 정의하고, 신뢰도(R²)와 안정성(q*)라는 두 가지 정량적 기준을 도입한다. 또한, 임계값 활성화 희소 자동인코더(TSAE)를 이용해 원자를 식별할 수 있음을 증명하고, 실제 모델(Gemma2‑2B, Gemma2‑9B, Llama3.1‑8B)에서 거의 완벽한 신뢰도와 안정성을 보이는 원자를 발견한다.

상세 분석

이 논문은 LLM 내부 표현을 이해하기 위한 근본적인 질문, 즉 “어떤 기본 단위가 정보를 저장하고 조합하는가?”에 답하고자 한다. 기존 연구에서 뉴런이나 특징(feature)을 FRU(기본 표현 단위)로 간주했지만, 다중 의미성(polysemanticity)과 재구성 한계 때문에 충분히 만족하지 못한다는 점을 정량적으로 입증한다. 저자들은 먼저 LLM의 잔차 스트림(residual‑stream) 표현이 선형 변환 A에 대해 불변함을 이용해, 유클리드 내적이 파라미터화에 따라 변하는 문제를 지적한다. 이를 해결하기 위해 Atomic Inner Product(AIP)을 정의하고, AIP가 원자 집합 D에 대해 서로 직교(또는 근사 직교)하도록 설계한다. 수학적으로 AIP는 S = c²(DDᵀ)⁻¹ 형태이며, 정규화된 AIP(NAIP)는 (DDᵀ)⁻¹ 로 표현된다.

원자는 세 가지 핵심 속성을 만족한다. 첫째, 표현 가능성(representability) – 모든 레이어의 토큰 표현을 원자들의 선형 결합으로 정확히 복원할 수 있어야 한다. 둘째, 희소성(sparsity) – 각 표현이 소수의 원자만을 활성화하도록 K‑sparse 제약을 둔다. 셋째, 분리성(separability) – 원자 간 내적이 ε 이하로 작아 근사 직교성을 유지한다. 이러한 정의를 정량화하기 위해 두 평가 지표를 도입한다. 신뢰도 R²는 원자 집합을 사용한 재구성 정확도를 나타내며, 1에 가까울수록 완전한 표현 가능성을 의미한다. 안정성 q*는 전체 데이터에서 ε‑근사 직교성을 만족하는 원자 비율을 측정한다.

실험에서는 Softmax에 의해 발생하는 “표현 이동(representation shift)”을 발견한다. Softmax은 토큰 간 각도 분포를 90°에서 벗어나게 만들어 유클리드 기하가 왜곡되는데, AIP를 적용하면 이 편향이 사라지고 각도 분포가 다시 90° 중심으로 복귀한다. 이는 AIP가 실제 LLM 내부 기하를 올바르게 포착한다는 강력한 증거이다.

다음으로 뉴런과 특징을 위 두 지표로 평가한다. 뉴런은 R²=1로 완벽한 재구성을 제공하지만 q*≈0.5%에 불과해 거의 전혀 안정적이지 않다. 반면 특징은 q*≈68.2%로 비교적 안정적이지만 R²≈48.8%에 머물러 재구성 능력이 부족하다. 따라서 두 기존 단위는 이상적인 원자 기준을 충족하지 못한다.

원자 식별을 위해 저자들은 TSAE(Threshold‑activated Sparse AutoEncoder)를 활용한다. 이 모델은 입력 표현을 희소한 원자 집합으로 압축하고, 디코더가 원자 집합을 재구성하도록 설계된다. 이론적으로 TSAE가 충분한 용량을 가질 경우, 원자 집합이 유일하게 식별된다는 정리를 증명한다. 실험에서는 데이터 규모와 TSAE 용량 사이의 임계 관계를 탐색해, 용량이 충분히 클 때만 안정적인 원자 식별이 가능함을 확인한다.

최종적으로 Gemma2‑2B, Gemma2‑9B, Llama3.1‑8B 모델에 대해 TSAE를 적용해 원자를 추출했으며, R²≈99.9%와 q*≈99.8%라는 거의 완벽한 지표를 달성했다. 추가 분석에서는 이러한 원자가 기존 이론이 기대하는 “단일 의미(monosemantic)성”을 크게 향상시켰으며, 각 원자가 특정 개념이나 기능에 대응한다는 정성적 증거도 제시한다. 전체적으로 이 논문은 LLM 내부 표현을 원자 단위로 분해함으로써, 모델 해석, 제어, 그리고 향후 구조 설계에 새로운 이론적 기반을 제공한다.

대형 언어 모델의 원자 이론

초록

상세 분석

댓글 및 학술 토론

의견 남기기