ConformalNL2LTL 자연어 명령을 LTL 공식으로 변환하는 신뢰성 보장 방법
초록
본 논문은 대형 언어 모델(LLM)을 활용해 자연어(NL) 명령을 선형시계열논리(LTL) 공식으로 자동 변환하면서, 사용자가 지정한 성공률을 보장하는 ConformalNL2LTL 프레임워크를 제안한다. 기본 LLM이 답변에 대한 불확실성을 conformal prediction(CP)으로 정량화하고, 불확실도가 임계값을 초과하면 보조 LLM 또는 인간 사용자의 도움을 받아 최종 공식의 정확성을 확보한다. 이론적 보증과 실험을 통해 99% 이상의 번역 성공률을 달성하면서 인간 개입을 0.4% 이하로 감소시켰음을 보여준다.
상세 분석
ConformalNL2LTL은 자연어‑LTL 변환을 일련의 종속적인 질문‑답변(QA) 단계로 분해한다. 각 단계에서 현재까지 구성된 부분 LTL 식과 원본 NL 명령, 로봇의 스킬 집합 A가 프롬프트에 포함되어 기본 LLM(ψp)에게 제시된다. ψp는 다중 샘플링을 통해 후보 응답들의 경험적 빈도를 구하고, 이를 CP의 비정규화된 스코어로 변환한다. 사용자가 정의한 신뢰 수준 1‑α에 대응하는 양자 q¯와 임계값 ζ를 이용해 예측 집합 C(ℓ(k),ψp)를 구성한다. 예측 집합이 단일 원소이면 바로 선택하고, 다중 원소이면 보조 LLM(ψaux)에게 동일 절차를 적용한다. 두 모델의 예측 집합 교집합 C_inter가 단일 원소가 되면 이를 채택하고, 여전히 다중 원소이면 인간에게 선택을 요청한다. 교집합이 비어 있거나 정답이 포함되지 않으면 번역을 실패로 선언한다. 이 흐름은 알고리즘 1에 명시된 대로 반복되며, 각 단계마다 부분 LTL 식 ϕ(k) 를 갱신한다.
핵심 이론적 기여는 CP가 제공하는 유한 샘플 보증을 활용해, “예측 집합에 정답이 포함될 확률 ≥ 1‑α”를 보장한다는 점이다. 이는 LLM이 폐쇄형(예: GPT‑4)이든 개방형(예: LLaMA)이든 적용 가능하도록 설계되었으며, 모델 자체의 로짓이나 확률 점수를 필요로 하지 않는다. 또한, 보조 모델을 도입함으로써 인간 개입 빈도를 크게 낮출 수 있다. 실험에서는 다양한 NL‑LTL 베이스라인(예: 직접 LLM‑to‑LTL 변환)과 비교해, 동일한 신뢰 수준에서 ConformalNL2LTL이 더 높은 정확도와 낮은 사용자 도움 비율을 기록했다. 특히, 분포 이동 상황에서도 CP 기반 보정이 완전하지 않음에도 불구하고, 성능 저하가 제한적이었다는 점이 흥미롭다.
이 논문은 로봇 임무 지정에서 해석 가능성과 검증 가능성을 동시에 확보하려는 시도이며, LLM 기반 자동화와 형식 검증 사이의 격차를 좁히는 중요한 단계로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기