문장 유사도 평가를 위한 의미와 구조 통합 프레임워크 ASSESS

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 자동 형식화된 수학 명제의 품질을 정량화하기 위해 의미와 구조를 동시에 고려하는 평가 지표인 TransTED Similarity를 제안한다. 형식 명제를 연산자 트리(OPT)로 변환하고, 의미 변환 규칙을 적용한 트리 편집 거리 기반 점수를 산출한다. 이를 검증하기 위해 1,247개의 전문가 라벨링 데이터셋 EPLA를 구축했으며, 실험 결과 기존 문자열 기반·증명 기반 지표를 크게 능가함을 보였다.

상세 분석

ASSESS 프레임워크는 두 단계로 구성된다. 첫 번째 단계에서는 Lean Language Server를 이용해 형식 명제를 연산자 트리(Operator Tree, OPT)로 파싱한다. 여기서 연산자는 내부 노드, 피연산자는 리프 노드가 되며, 모든 비리프 노드 라벨에 플래이스홀더를 추가해 연산자와 피연산자를 명확히 구분한다. 또한 괄호는 트리 구조가 이미 연산자 우선순위를 내포하므로 제거한다. 이러한 전처리는 문자열 기반 메트릭이 겪는 표면적 변형에 대한 민감성을 크게 낮춘다.

두 번째 단계에서는 전통적인 트리 편집 거리(Tree Edit Distance, TED)를 기반으로 하지만, 의미적 변환(transformation) 규칙을 추가한다. 변환 규칙은 논리적으로 약한 명제에서 강한 명제로의 함의를 이용한다. 예를 들어, i = j 라는 약한 명제는 f(i) = f(j) 라는 강한 명제로 변환될 수 있다면, 두 명제 사이의 거리 d*는 원래 거리보다 작거나 같아야 한다는 제약을 둔다. 논문은 이러한 제약을 만족하는 최대의 의사거리(pseudometric)를 선형 계획법으로 정의하고, 이를 TransTED 거리라고 명명한다. 실제 구현에서는 변환 집합이 유한하므로 완전한 최적값 대신 상한값을 계산한다.

TransTED는 두 가지 핵심 장점을 가진다. 첫째, 구조적 차이를 정밀히 측정하면서도 의미적으로 동등한 표현(예: a + b와 b + a)을 동일하게 인식한다. 둘째, 변환 과정이 증명 시도와 연계되어, 변환이 성공하면 즉시 ‘Proved’ 상태로 종료되며, 변환이 불가능하거나 시간·노드 제한을 초과하면 각각 ‘TLE’, ‘NLE’ 라벨을 부여한다. 이는 기존 증명 기반 평가가 ‘불가능’이라고 판정하는 경우에도 연속적인 유사도 점수를 제공한다는 점에서 실용적이다.

EPLA 벤치마크는 miniF2F와 ProofNet에서 추출한 자연어-형식문 쌍을 네 개의 자동화 모델(두 개 도메인 특화, 두 개 범용)로 번역하고, Lean 컴파일러를 통해 구문 오류를 걸러낸 뒤, 전문가가 의미적 ‘Provability’와 구조적 ‘Likeness’를 라벨링한 1,247개의 데이터셋이다. 실험에서는 TransTED가 기존 BLEU, ROUGE, GTED, 그리고 LLM-as-a-Judge와 같은 최신 메트릭을 모두 앞서며, miniF2F에서는 정확도 70.16%, Kappa 0.35, ProofNet에서는 정확도 67.31%, Kappa 0.30을 기록했다. 특히 변환 모듈을 제외한 Ablation 실험에서 성능이 크게 떨어지는 것으로 보아, 의미 변환이 성능 향상의 핵심 요인임을 확인했다.

전체적으로 ASSESS는 CPU 전용으로 구현 가능하고, 재현성이 높으며, 비용 효율적인 자동 평가 도구로서 자동 형식화 연구에 중요한 기반을 제공한다. 향후 변환 규칙을 확대하고, 다른 형식 시스템(예: Coq, Isabelle)에도 적용함으로써 범용적인 수학 명제 평가 프레임워크로 확장될 가능성이 있다.

문장 유사도 평가를 위한 의미와 구조 통합 프레임워크 ASSESS

초록

상세 분석

댓글 및 학술 토론

의견 남기기