LLM을 위한 동적 지식 벤치마크와 엔터티‑인식 파인튜닝
초록
본 논문은 LLM이 시점에 민감한 사실을 얼마나 정확하고 일관되게 기억하는지를 평가하기 위해 실시간 위키데이터 기반 동적 벤치마크 DyKnow를 제안한다. 24개 최신 모델을 정확도·일관성 측면에서 비교하고, ROME·MEMIT·SERAC·IKE 같은 지식 편집 기법과 Retrieval‑Augmented Generation을 검증한다. 또한 엔터티를 고유 ID와 명명 엔터티 태그로 명시하는 소프트 뉴로심볼릭 파인튜닝 방법 ENAF를 도입해 프롬프트 변형에 대한 응답 안정성을 크게 향상시켰다.
상세 분석
이 연구는 LLM을 정적 지식 저장소가 아닌, 시간에 따라 변하는 사실을 지속적으로 반영해야 하는 ‘동적 지식 저장소’로 바라본다. 기존 정적 벤치마크는 데이터 오염과 시점 고정 문제로 실제 활용에 한계가 있었으며, 이를 해결하기 위해 저자들은 위키데이터의 속성·값 구조와 시간 구간(시작·종료 날짜)을 활용해 실시간으로 사실을 업데이트하는 DyKnow 프레임워크를 설계했다. DyKnow는 (1) 최신 속성값을 정답으로 삼아 정확도를 측정하고, (2) 과거에 정답이었지만 현재는 구식인 경우를 ‘outdated’로, (3) 위키데이터에 존재하지 않는 값을 ‘irrelevant’로 분류한다.
평가 대상은 GPT‑2, GPT‑3, T5, GPT‑J, Bloom, Flan‑T5, GPT‑4, Llama‑2, Falcon, Vicuna, Mistral, Mixtral 등 24개 모델이며, 각 모델에 대해 ‘subject perturbation’(엔터티 명칭 변형)과 ‘property perturbation’(속성 표현 변형) 두 종류의 프롬프트 변형을 적용해 일관성을 측정했다. 결과는 최신 모델일수록 정확도는 높지만, 여전히 10~30% 수준의 구식·무관한 응답이 존재함을 보여준다. 특히, 인스트럭트와 챗형 모델 간 일관성 차이가 크지 않으며, Llama‑3와 GPT‑4가 전체적으로 가장 높은 정확도와 낮은 구식 비율을 기록했다.
지식 편집 기법에 대한 실험에서는 파라미터를 직접 수정하는 ROME·MEMIT과 파라미터를 보존하는 SERAC·IKE를 비교했다. ROME과 MEMIT은 특정 사실을 빠르게 업데이트하지만, 편집 후 다른 관련 질문에서 부작용(리플 효과)이 발생할 위험이 있었다. 반면 SERAC·IKE는 파라미터 변화를 최소화해 부작용을 억제했지만, 편집 성공률이 낮았다. Retrieval‑Augmented Generation(RAG)은 외부 검색 결과를 결합해 최신 정보를 제공했으며, 특히 구식 응답을 크게 감소시켰지만, 검색 단계에서의 오류가 전체 성능에 영향을 미쳤다.
핵심 기여는 ENtity‑Aware Fine‑tuning(ENAF)이다. ENAF는 사전학습·파인튜닝 단계에서 각 엔터티에 고유 ID와 명명 엔터티(NER) 태그를 삽입해 ‘신경‑심볼릭’ 표현을 형성한다. 이렇게 하면 동일 엔터티의 다양한 표기(예: “Cristiano Ronaldo”, “CR7”, “Ronaldo”)가 모델 내부에서 하나의 심볼로 매핑되어, 프롬프트 변형 시 일관된 응답을 생성한다. 실험 결과, ENAF를 적용한 모델은 subject perturbation에 대한 일관성 점수가 평균 15%p 상승했으며, 전체 정확도 역시 3~5%p 개선되었다. 특히, 최신 정보가 필요한 질문에서 RAG보다 더 안정적인 성능을 보였다.
논문은 또한 엔터티‑중심 뉴로심볼릭 프레임워크를 제시해, 향후 멀티모달·음성 기반 LLM에서도 동일한 접근이 적용 가능함을 강조한다. 동적 벤치마크와 ENAF는 LLM이 실제 지식 저장소로 활용되기 위한 필수적인 평가·개선 도구로 자리매김할 전망이다.
댓글 및 학술 토론
Loading comments...
의견 남기기