LLM의 지식‑예측 격차 해소: 다중선택문제에서 KAPPA 적용

LLM의 지식‑예측 격차 해소: 다중선택문제에서 KAPPA 적용
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어모델(LLM)이 다중선택문제(MCQ)에서 정답을 내부 표현에 담고 있음에도 불구하고 잘못된 선택을 하는 현상을 ‘지식‑예측 격차’라 정의한다. 저자들은 잔차 스트림의 숨겨진 상태를 두 개의 선형 프로브(지식 프로브, 예측 프로브)로 분석해 지식 서브스페이스와 예측 서브스페이스가 서로 정렬되지 않음을 발견한다. 이를 기하학적으로 해석한 뒤, KAPPA라는 추론 시점 변환을 도입해 두 서브스페이스를 정렬함으로써 격차를 크게 감소시키고 정확도를 향상시킨다.

상세 분석

논문은 먼저 LLM이 MCQ에 대해 정답을 “선형적으로 접근 가능한 형태”로 내부에 보유하고 있는지를 검증한다. 이를 위해 각 레이어의 잔차 스트림 출력 hₗ(x)를 추출하고, (1) 정답 라벨 y를 예측하는 지식 프로브와 (2) 모델이 실제 선택한 옵션 ỹ를 예측하는 예측 프로브를 각각 k‑클래스 선형 분류기로 학습한다. 두 프로브는 동일한 입력 표현을 사용하지만 가중치가 서로 독립적이므로, 각각이 정의하는 가중치 벡터 집합은 고유한 저차원 서브스페이스(지식 서브스페이스, 예측 서브스페이스)를 형성한다.

실험 결과, 지식 프로브는 중간 레이어 이후 정확도가 급격히 상승해 90% 이상에 도달하는 반면, 모델 자체의 생성 정확도는 그보다 현저히 낮아 ‘지식‑예측 격차’를 명확히 드러낸다. 특히, TruthfulQA, BBQ와 같은 진실성·편향 벤치마크와 GSM8K, BBH‑Algorithmic 같은 추론 벤치마크에서 격차가 크게 나타났으며, MMLU와 같은 순수 지식 벤치마크에서는 상대적으로 작았다.

격차를 정량화하기 위해 두 지표를 제안한다. (i) A_GR은 지식 프로브와 모델 출력이 동일한 옵션을 선택했는지를 0/1로 측정해 정답 일치 비율을 나타낸다. (ii) KLD는 모델 출력 분포 p_M과 지식 프로브 분포 p_K 사이의 KL 발산을 계산해 확률 분포 수준에서의 정렬 정도를 측정한다. 높은 A_GR·낮은 KLD가 작은 격차를 의미한다.

기하학적 해석에서는 두 서브스페이스 사이의 각도와 투영 관계를 분석한다. 격차가 큰 경우, 지식 서브스페이스의 주요 축이 예측 서브스페이스와 크게 비틀려 있어, 모델이 내부에 보유한 정답 정보를 최종 로짓에 충분히 반영하지 못한다는 것을 확인한다.

이를 해결하기 위해 제안된 KAPPA(Knowledge‑Aligned Prediction through Projection‑based Adjustment)는 각 입력에 대해 현재 잔차 스트림 h를 affine 변환 T(h)=h+W·(proj_K(h)−proj_P(h)) 형태로 조정한다. 여기서 proj_K와 proj_P는 각각 지식 서브스페이스와 예측 서브스페이스에 대한 정규 직교 투영이며, W는 최소한의 변형을 보장하도록 정규화된 스칼라이다. 변환은 추론 시점에만 적용되며, 추가 파인튜닝이나 파라미터 업데이트가 필요하지 않다.

실험에서는 KAPPA가 기존의 토큰‑레벨 스티어링, 디코딩 기반 보정 등과 비교해 A_GR을 평균 812% 상승시키고 KLD를 1525% 감소시켰다. 또한, 모델 전체 정확도(ACC) 역시 평균 2~4% 포인트 상승했으며, 특히 TruthfulQA와 BBQ에서 가장 큰 개선 효과를 보였다. 흥미롭게도, KAPPA는 자유형 응답(free‑form) 설정에서도 지식 서브스페이스와의 정렬을 유지해 성능 향상을 가져왔다.

추가 분석에서는 동일한 스킬(예: 추론, 사실 검증) 간에 학습된 지식·예측 서브스페이스가 부분적으로 공유된다는 점을 발견했다. 이는 KAPPA가 특정 데이터셋에 국한되지 않고, 일반화 가능한 서브스페이스 정렬 메커니즘임을 시사한다. 전체적으로 논문은 LLM의 ‘지식은 있지만 활용 못한다’는 현상을 정량·정성적으로 규명하고, 간단한 선형 변환을 통해 실용적인 해결책을 제시함으로써 추론 시점 안전성 및 신뢰성 연구에 중요한 기여를 한다.


댓글 및 학술 토론

Loading comments...

의견 남기기