LLM의 숨은 지식 탐색: Hits@k로 본 메모리와 표현 격차
초록
본 논문은 대형 언어 모델(LLM)이 정답을 출력하지 못하더라도 내부 로그잇 분포에 정답 후보가 높은 확률로 존재한다는 “저장‑표현 격차”를 발견한다. 이를 정량화하기 위해 상위 k 토큰에 정답이 포함되는 비율을 측정하는 Hits@k 지표를 제안하고, 다양한 모델·데이터셋에 적용해 LLM이 실제보다 훨씬 많은 사실 지식을 보유하고 있음을 입증한다. 또한 “unsure” 응답을 허용하는 프롬프트가 정답 토큰의 확률을 억제해 지식 표현을 방해한다는 억제 효과를 실험적으로 확인한다.
상세 분석
이 연구는 LLM의 지식 활용을 평가할 때 전통적인 정답 일치(Accuracy)만으로는 모델이 실제로 보유한 사실 정보를 충분히 드러내지 못한다는 점을 체계적으로 증명한다. 먼저, 질문에 대한 모델의 출력 로그잇을 분석한 결과, 정답이 top‑1 토큰이 아니더라도 top‑k(예: k=5, k=100) 안에 자주 포함되는 패턴을 발견했다. 이는 “지식 저장은 이루어졌지만 표현 단계에서 손실”되는 현상, 즉 저장‑표현 격차(storage‑expression gap)라 명명한다.
이를 정량화하기 위해 Hits@k = (Nₖ_correct / N) 형태의 지표를 도입했으며, 여기서 Nₖ_correct는 정답이 상위 k 토큰에 포함된 질문 수이다. 실험에서는 LLaMA 3‑8B가 DBpedia‑Head 데이터에서 Hits@1은 17.2%에 불과하지만 Hits@5는 57.9%로 급상승한다. 모델 규모가 클수록 Accuracy는 향상되지만 Hits@k 점수는 반드시 비례하지 않으며, 최신 모델(LLaMA 3, Qwen 2)들이 구형 모델에 비해 동일 파라미터 규모에서도 높은 Hits@k를 기록한다. 이는 모델 아키텍처와 학습 데이터 최신화가 “잠재 지식” 회수 효율에 큰 영향을 미친다는 의미다.
도메인별 분석에서는 오픈 도메인(DBpedia)에서 Hits@k가 높게 나타나는 반면, 전문 도메인(IMDB, Goodreads)에서는 낮은 점수를 보였다. 이는 전문 지식이 사전 학습 데이터에 충분히 포함되지 않았거나, 토큰화·어휘 구조가 해당 분야 용어를 충분히 반영하지 못하기 때문이다. 또한, 엔티티 인기(popularity)와 Hits@k 사이에 양의 상관관계가 존재했지만, Accuracy 대비 그 차이는 미미했다. 즉, 모델은 인기 있는 사실을 더 잘 기억하지만, 인기와 무관한 사실도 상위 k 내에 존재할 가능성이 높다.
프롬프트 설계 실험에서는 “unsure” 혹은 “I don’t know”와 같은 회피형 응답을 허용하면 모델이 낮은 확신의 정답 토큰을 억제하고, 결과적으로 상위 k 내에 있던 정답이 로그잇에서 밀려난다. 반대로 “unsure” 토큰을 디코딩 단계에서 필터링하거나, 낮은 온도·그리디 디코딩을 사용하면 숨겨진 정답을 회수할 수 있음을 보였다. 이는 실제 서비스에서 “조심스러운” 응답이 반드시 정확성을 높이는 것이 아니라, 잠재 지식의 발현을 저해할 수 있음을 시사한다.
종합하면, LLM은 파라미터에 풍부한 사실 정보를 저장하고 있으나, 현재의 디코딩·프롬프트 전략이 이를 충분히 끌어내지 못한다. Hits@k는 이러한 잠재 지식을 포착하는 유용한 평가 도구이며, 모델 설계·프롬프트 엔지니어링 단계에서 “표현 효율”을 고려해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기