논리적 상식 추론을 위한 새로운 벤치마크
초록
본 논문은 기존 단일 정답 형식의 상식 추론 벤치마크가 갖는 한계를 극복하고자, 원자적 답변 두 개를 논리 연산자(AND, OR, NEITHER/NOR)로 결합해 ‘논리적 상식 추론(Logical‑CommonsenseQA)’ 데이터셋을 구축한다. 인간 검증을 거친 원자적 문장들을 조합해 19,996개의 다중 선택 문제를 만들고, zero‑shot, few‑shot, fine‑tuning 등 다양한 설정에서 최신 LLM들을 평가한다. 결과는 모델이 AND와 OR 연산에서는 비교적 양호하지만, 부정(NOR) 연산에서는 급격히 성능이 떨어짐을 보여, 현재 LLM의 상식 추론 능력에 존재하는 근본적인 한계를 드러낸다.
상세 분석
논리적 CommonsenseQA는 기존 CommonsenseQA의 12,247개 질문을 출발점으로, 각 질문에 대해 원자적 정답 후보를 GPT‑4o‑mini를 이용해 다수 생성하고, 인간 검증을 통해 plausibility(가능성)와 consensus(사회적 동의)를 평가한다. 이후 deterministic 프로그램으로 두 개의 원자적 문장을 AND, OR, NEITHER/NOR 중 하나의 연산자로 결합해 19,996개의 최종 인스턴스를 만든다. 데이터는 각 연산자별 4,999개씩 균등하게 배분되고, MIXED 조건에서는 연산자가 옵션마다 달라 모델이 연산자를 추론하도록 설계되었다.
실험에서는 LLaMA‑3.3‑70B, LLaMA‑3.1‑8B, Qwen2.5‑7B 등 최신 디코더‑전용 LLM을 zero‑shot 및 3‑shot 프롬프트로 평가했으며, Flan‑T5‑base와 DeBERTa‑v3‑base 같은 인코더‑디코더 모델을 supervised fine‑tuning하였다. 평가 지표는 정확도와 macro‑F1이며, 특히 인간 검증(HV) 서브셋과 비검증(NV) 서브셋으로 나누어 일반화 여부를 확인했다.
주요 결과는 다음과 같다. (1) AND 연산에서는 70‑85% 수준의 F1을 기록, 모델이 두 문장의 독립적 가능성을 잘 판단함을 보여준다. (2) OR 연산에서는 60‑78%로 다소 낮지만 여전히 양호하며, 최소 하나의 문장이 타당한지를 판단하는 능력이 있음을 시사한다. (3) NEITHER/NOR 연산에서는 6‑14%에 불과해, 부정적 조합을 인식하는 데 큰 어려움을 겪는다. 이는 LLM이 ‘둘 다 부정적’이라는 복합적인 가능성 판단을 수행하지 못함을 의미한다. (4) MIXED 조건에서는 F1가 40‑55%로 급격히 감소, 연산자를 옵션별로 추론해야 하는 상황에서 모델이 표면적인 힌트에 의존하는 경향이 드러난다. 반면, fine‑tuned 모델은 83‑93%의 높은 F1을 달성해, 충분한 지도 학습이 있으면 논리적 조합을 학습할 수 있음을 확인한다.
오류 분석에서는 (a) 부정 연산에서 ‘둘 다 불가능’이라는 판단을 놓치는 경우가 대부분이며, (b) 일부 옵션이 의미적으로 중복돼 모델이 혼동하는 현상이 발견되었다. 또한, 인간 검증 단계에서 κ=0.49라는 중간 수준의 일치도를 보였는데, 이는 상식 판단 자체가 주관적이며 사회적 합의가 필요함을 반영한다.
이러한 결과는 현재 LLM이 통계적 패턴에 기반한 추론은 가능하지만, 논리적 연산자를 통한 복합 가능성 평가, 특히 부정적 조합에 대한 명시적 이해는 부족함을 명확히 보여준다. 따라서 향후 연구는 (i) 부정 연산을 강화한 프롬프트 설계, (ii) 연산자‑정의 학습을 위한 메타‑학습 기법, (iii) 인간‑기계 협업을 통한 지속적인 검증 루프 구축 등을 통해 논리적 상식 추론 능력을 향상시킬 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기