대규모 언어 모델을 위한 포괄적 온톨로지 관계 평가 (CORE)
초록
CORE는 74개 분야에 걸친 225 천 개의 객관식 질문과, 24가지 의미 관계를 균형 있게 포함한 203문제 검증 벤치마크를 제공한다. 인간은 전체 92.6 %·비관련 쌍 95.1 %의 정확도를 보였지만, 최신 29개 LLM은 전체 48 %‑71 %에 머물며, 비관련 쌍에서는 0 %‑41 % 수준으로 급격히 성능이 떨어진다. 모델은 높은 자신감 점수를 유지하고, 비관련 쌍에서 기대 보정 오차(ECE)가 2‑4배 상승하며, 의미 붕괴율이 평균 37.6 %에 달한다. 전체 225 K 데이터셋에서는 정확도가 약 2 %로 급감한다. 이는 의미 관계 부재를 판단하는 “비관련성 추론”이 현재 LLM 평가와 안전성 연구에서 크게 간과되고 있음을 보여준다.
상세 분석
CORE 프로젝트는 두 가지 핵심 자원을 제공한다. 첫째, 225 K 규모의 다학제 MCQ 풀은 74개 분야(자연과학, 인문·사회 등)를 포괄하며, 각 질문은 “A:B → C:?” 형태의 아날로지식 추론을 요구한다. 둘째, 203문제로 구성된 공개 벤치마크는 24개의 의미 관계(예: agent‑instrument, cause‑effect, synonym 등)와 “unrelated” 클래스를 동등하게 배치해, 모델이 실제로 관계가 존재하지 않을 때 이를 인식할 수 있는지를 측정한다. 인간 라벨링은 1 000명 이상이 참여했으며, Cohen’s κ = 1.0이라는 완전한 합의를 달성했다. 인간은 비관련 쌍에서도 95 % 이상의 정확도를 기록, 관계 인식이 인간에게는 본능적임을 확인한다.
29개의 최신 LLM(오픈·클로즈드, 8 B‑405 B 파라미터, 다양한 사전학습·RLHF 전략 포함)을 동일한 프롬프트와 deterministic inference 설정으로 평가했다. 결과는 두드러진 비대칭성을 보인다. 관련 쌍에서는 86 %‑100 %의 높은 정확도로 인간 수준에 근접했지만, 비관련 쌍에서는 0 %‑41 %에 불과했다. 흥미롭게도 모델은 92 %‑94 % 수준의 높은 confidence를 유지했으며, 이는 기대 보정 오류(ECE)가 비관련 쌍에서 2‑4배 상승한 원인으로 작용한다. 즉, 모델은 자신이 틀린 답을 확신한다는 ‘과신’ 현상이 심각하다.
의미 붕괴율(semantic collapse rate)은 비관련 쌍을 관계가 존재한다고 잘못 분류한 비율로 정의되며, 평균 37.6 %에 달한다. 이는 무작위 추측(≈75 %)보다 훨씬 낮지만, 여전히 시스템적인 오류임을 의미한다. 논문은 구체적인 사례를 제시한다. 예를 들어 “Hospital is to flying as wolf is to ?”와 같은 질문에서 모델은 “pack”이나 “howl” 등 연관성 있는 단어를 선택해 일관된 서술을 만든다. 이는 관계 부재를 인식하지 못하고, 의미적 연결 고리를 강제로 생성하는 ‘허위 관계 생성’ 패턴이다.
전체 225 K 데이터셋에 동일 모델을 적용했을 때 정확도는 약 2 %로 급락한다. 이는 도메인 특화 지식이 요구되는 상황에서 현재 LLM이 의미 관계를 일반화하는 능력이 매우 제한적임을 보여준다. 또한, 비관련성 추론이 안전-critical한 분야(의료, 법률, 금융 등)에서 오판을 야기할 위험을 강조한다. 논문은 이러한 한계를 극복하기 위해 (1) 비관련 샘플을 학습에 적극 포함하는 데이터 증강, (2) 관계 부재를 명시적으로 학습시키는 손실 함수 설계, (3) 모델의 confidence calibration을 위한 후처리 기법 도입 등을 제안한다.
전반적으로 CORE는 LLM 평가에서 ‘관계 존재 여부’를 간과한 기존 벤치마크를 보완하고, 의미론적 안전성 평가의 새로운 기준을 제시한다. 비관련성 추론을 정량화함으로써 연구자와 실무자는 모델의 숨은 편향을 드러내고, 보다 신뢰성 있는 AI 시스템 구축을 위한 방향성을 모색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기