형식 논리 검증으로 LLM 추론 능력 한계 돌파
초록
본 논문은 대형 언어 모델(LLM)의 자연어 추론 과정에 형식 논리 검증을 실시간으로 삽입하는 프레임워크를 제안한다. 두 단계(감독 미세조정 + 강화학습) 학습 파이프라인을 통해 중간 단계의 논리 오류를 즉시 탐지·수정하고, 7B·14B 모델이 기존 최첨단 대비 각각 평균 10.4%·14.2%의 성능 향상을 달성함을 실증한다.
상세 분석
이 연구는 LLM이 확률적 토큰 예측에 의존함으로써 발생하는 논리 불일치와 보상 해킹 문제를 형식 논리 검증으로 보완한다는 점에서 혁신적이다. 기존의 사후 검증(post‑hoc) 방식은 오류가 이미 생성된 뒤에만 확인하므로 오류 전파를 차단하지 못한다. 저자들은 이를 극복하기 위해 추론 단계마다 형식화된 명제(f_i)와 검증 결과(v_i)를 함께 생성하도록 모델을 설계했다. SFT 단계에서는 교사 모델이 다중 CoT 체인을 생성하고, 각 단계별 자연어 설명을 자동으로 형식 논리(예: SMT, Lean, Z3)로 변환한다. 자동 형식화 과정에서 발생할 수 있는 노이즈를 줄기 위해 실행 기반 검증 파이프라인을 도입했으며, 정확도 일치, 의미적 동등성, 그리고 필요 시 자연어 재작성이라는 3단계 필터링을 적용한다. 이렇게 정제된 데이터는 모델의 초기 학습에 사용되어 형식·자연어 사이의 정합성을 학습한다. RL 단계에서는 Group Relative Policy Optimization(GRPO)을 활용해, 검증 성공·실패 여부를 보상 함수에 직접 반영한다. 즉, 중간 단계에서 논리 오류가 발견되면 즉시 패널티를 부여하고, 올바른 증명 경로를 찾을 때까지 반복적으로 피드백을 제공한다. 실험은 수학, 논리, 일반 추론 등 6개 벤치마크에서 수행됐으며, 특히 복잡한 논리 퍼즐에서 52% 이상의 중간 단계 오류율을 크게 감소시켰다. 결과적으로 7B 모델은 평균 10.4%, 14B 모델은 14.2%의 절대적 정확도 향상을 보였으며, 이는 기존 SFT만 적용한 모델 대비 두 자릿수 향상이다. 논문의 한계로는 형식 검증 엔진의 도메인 커버리지와 실행 속도, 그리고 자동 형식화 과정에서 여전히 남는 소수의 오류가 있다. 향후 연구에서는 더 폭넓은 형식 체계와 경량화된 검증기, 그리고 인간 주석을 결합한 하이브리드 피드백 메커니즘이 필요할 것으로 보인다.
댓글 및 학술 토론
Loading comments...
의견 남기기