정확도 최적화 잔차 활성화 렌즈 CORAL

정확도 최적화 잔차 활성화 렌즈 CORAL
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 오답률과 캘리브레이션 오류를 동시에 개선하기 위해, 내부 잔차 스트림 활성화를 활용한 경량 MLP 프로브(CORAL)를 제안한다. 7B 파라미터 모델 3종에 대해 10% 수준의 정확도 상승과 ECE 50% 감소를 달성했으며, 학습 없이도 ARC‑Challenge, HellaSwag, Math‑MC, OpenBookQA 등 네 개의 외부 벤치마크에 평균 14% 정확도·49% ECE 개선을 보여 전이 가능성을 입증한다.

상세 분석

CORAL은 기존 인퍼런스‑타임 스티어링 방법이 ‘정확도 프록시’를 최적화하는 데 머무르는 한계를 극복한다. 저자들은 먼저 ‘잔차 정확도(residual correctness)’라는 개념을 정의한다. 이는 정답 옵션에 대해 모델이 할당한 확률과 이상적인 목표 분포(정답에 1, 나머지에 0) 사이의 차이로, 양수는 과소신뢰, 음수는 과신뢰를 의미한다. 이 잔차를 직접 최소화하면 Brier 스코어(정확도와 캘리브레이션을 동시에 평가하는 적절한 점수)를 최적화하는 것이 된다.

프로브는 4개의 은닉층(1024‑512‑256‑128)으로 구성된 MLP이며, 가중치 감쇠와 dropout을 적용해 과적합을 방지한다. 입력은 각 정답 후보에 대해 모델의 잔차 스트림에서 추출한 평균 풀링된 hidden state이며, z‑score 정규화를 거쳐 사용한다. 손실 함수는 MSE와 예측값 제곱에 대한 정규화 항을 결합해, 예측값이 과도하게 큰 값을 갖지 않도록 제어한다. 학습은 5시간 이내의 단일 GPU 환경에서 수행되며, 두 종류의 훈련 데이터(CommonsenseQA + RACE, MMLU)에 대해 별도 프로브를 학습한다.

인퍼런스 단계에서는 각 옵션에 대한 프로브 예측 ˆr_j 를 중앙값(평균)으로 정규화한 뒤, 스케일링 파라미터 γ를 곱해 원래 확률 p_j 에 더한다. 이때 확률이 음수가 되지 않도록 클리핑하고, 전체 확률이 1이 되도록 재정규화한다. 이렇게 하면 모델은 프로브가 ‘정답일 가능성이 높은’ 옵션에 더 많은 확률을 할당하게 되며, 동시에 과신뢰된 오답 옵션의 확률은 감소한다.

실험 결과는 세 가지 7B 모델(LLaMA‑style, Falcon‑7B, Mistral‑7B) 모두에서 일관된 향상을 보였다. 기본 정확도 대비 평균 10% 상승, ECE는 평균 50% 감소했다. 특히, 학습에 사용되지 않은 네 개의 외부 벤치마크에 대해선 평균 14% 정확도 향상과 49% ECE 감소를 기록했으며, 이는 프로브가 특정 태스크에 국한되지 않은 ‘정확도 서브스페이스’를 포착함을 시사한다.

또한, Sparse Autoencoder(SAE) 기반의 희소 특성 탐색 실험에서는 개별 특성 하나하나가 미미한 인과 효과만을 보였으며, 반대로 정규화된 MLP 프로브는 다수의 뉴런에 분산된 신호를 효과적으로 집계해 큰 스티어링 효과를 만든다. 이는 최신 메카니즘 연구에서 제시된 ‘분산 신호’ 가설을 실증적으로 뒷받침한다.

마지막으로 캘리브레이션 측면에서, 기존 온도 스케일링이나 isotonic regression과 달리 CORAL은 내부 표현을 직접 활용해 확률 자체를 조정함으로써 정확도와 캘리브레이션을 동시에 개선한다. Brier 스코어와 NLL에서도 유의미한 감소를 보였으며, 이는 모델이 더 신뢰할 수 있는 확률을 출력한다는 의미다. 전체적으로 CORAL은 재학습 없이도 경량 프로브 하나로 LLM의 사실성 및 캘리브레이션을 크게 향상시킬 수 있음을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기