자연어에서 인지 의사결정 규칙 자동 형식화 NL2CA와 비지도 비평자 기반 LTL 변환

초록

NL2CA는 대규모 언어 모델을 활용해 인간 인터뷰 텍스트를 선형시계논리(LTL)로 변환하고, 비지도 비평자 트리를 통해 논리를 정제한 뒤, 상징적 인지 프레임워크에 맞는 생산 규칙으로 자동 전환한다. 이를 기반으로 인지 강화학습을 적용해 운전 시뮬레이션 에이전트를 구축했으며, 전문가와 대규모 벤치마크 모두에서 인간 개입 없이 일관된 성능을 입증했다.

상세 요약

NL2CA는 인지 컴퓨팅 모델링의 두 가지 핵심 병목을 동시에 해결한다. 첫째, 인간의 경험을 서술한 자연어를 형식 논리식으로 변환하는 과정에서 기존 연구는 주로 수작업 라벨링이나 인간‑인-루프 피드백에 의존했지만, 본 논문은 사전학습된 대규모 언어 모델(LLM)을 미세조정하여 텍스트‑투‑LTL 파이프라인을 완전 자동화한다. 여기서 중요한 설계 선택은 “프롬프트 엔지니어링 + 도메인‑특화 데이터셋”을 이용해 LLM이 시간적 연속성, 조건부 이벤트, 우선순위 등을 정확히 포착하도록 학습시킨 점이다.

둘째, LLM이 생성한 LTL은 종종 논리적 불일치나 과잉 일반화 문제를 내포한다. 이를 보완하기 위해 저자들은 비지도 Critic Tree(비평자 트리)를 도입했다. 비평자 트리는 생성된 LTL을 구조적으로 분해하고, 논리적 충돌, 중복, 불필요한 전제 등을 자동 탐지한다. 탐지된 오류는 트리 기반 재작성 규칙에 의해 순차적으로 수정되며, 이 과정은 외부 레이블 없이도 논리적 일관성을 크게 향상시킨다. 특히, 비평자 트리는 “정규화”, “축소”, “보강” 세 단계로 구성돼, 기존의 지도 학습 기반 검증기와 달리 데이터 효율성이 뛰어나며, 다양한 도메인에 쉽게 전이될 수 있다.

다음으로, 정제된 LTL을 생산 규칙 형태로 변환하는 단계에서는 인지 아키텍처인 ACT-R이나 Soar와 호환되는 if‑then‑else 형태의 규칙 집합으로 매핑한다. 이때 규칙의 트리거와 행동을 LTL의 전제와 후속으로 직접 연결함으로써, 인간 인터뷰에서 도출된 “의도‑조건‑행동” 삼위일체를 그대로 보존한다.

마지막으로, 생성된 규칙 기반 에이전트를 실제 행동 데이터에 맞추어 강화학습(RL)으로 미세조정한다. 여기서는 인지 강화학습(CRL) 프레임워크를 사용해, 규칙의 적용 빈도와 보상 신호를 동시에 최적화한다. 실험 결과, 70여 개의 운전 시나리오에서 인간 운전자의 결정 패턴을 높은 정확도로 재현했으며, 기존 수작업 모델링 대비 개발 시간과 인건비를 80% 이상 절감했다.

전체적으로 NL2CA는 (1) LLM 기반 자연어‑LTL 자동 변환, (2) 비지도 비평자 트리를 통한 논리 정제, (3) 인지 프레임워크와의 원활한 규칙 매핑, (4) 인지 강화학습 기반 에이전트 최적화라는 네 단계 파이프라인을 제시한다. 각 단계는 독립적으로 평가 가능하며, 특히 비평자 트리는 다른 LLM‑to‑logic 작업에 일반화 가능한 모듈로 활용될 잠재력이 크다.

초록

상세 요약

📜 논문 원문 (영문)