공식 기반 확률 추론 새로운 알고리즘과 효율성 향상
초록
본 논문은 논리식에 부여된 확률·가중치를 이용해 다른 논리식의 확률을 계산하는 문제를 정의하고, 이를 정확히 해결하는 공식 분해·조건화 기법과 근사적으로 해결하는 공식 중요도 샘플링 기법을 제안한다. 기존 변수 기반 방법과 달리 식 자체를 다루어 구조적 정보를 활용함으로써 계산 효율을 크게 높일 수 있음을 이론 및 실험을 통해 입증한다.
상세 분석
이 논문은 “공식 기반 확률 추론”이라는 새로운 문제 설정을 제시한다. 전통적인 확률 논리학에서는 변수에 대한 확률을 직접 다루지만, 여기서는 논리식 자체를 확률 변수처럼 취급한다. 즉, 주어진 식들의 가중치(또는 확률)로부터 목표 식의 확률을 구하는데, 이는 가중 모델 카운팅(weighted model counting) 문제의 일반화라 할 수 있다. 저자들은 두 가지 주요 접근법을 설계한다. 첫 번째는 공식 분해와 조건화(Formula Decomposition and Conditioning, FDC) 로, 이는 변수 기반 분해와 유사하게 식을 부분식으로 나누고, 각 부분식에 대해 조건화하면서 전체 확률을 재귀적으로 계산한다. 중요한 점은 분해 기준이 변수 대신 공식 구조에 기반한다는 것이다. 예를 들어, 공통 서브식이 여러 식에 등장하면 이를 한 번만 카운트함으로써 중복 계산을 방지한다. 또한, 조건화 단계에서는 SAT/SMT 솔버를 활용해 부분식이 만족 가능한지 빠르게 판단하고, 불가능한 경우 탐색을 즉시 차단한다. 이러한 방식은 탐색 트리의 깊이를 크게 얕게 만들며, 특히 큰 클라우즈와 복잡한 논리적 의존성을 가진 문제에서 효율성을 크게 향상시킨다.
두 번째는 공식 중요도 샘플링(Formula Importance Sampling, FIS) 으로, 이는 가중 모델 카운팅을 근사 추정에 적용한 최초 사례라 할 수 있다. FIS는 전체 식 공간을 직접 샘플링하는 대신, 사전 정의된 중요도 분포를 이용해 샘플을 생성한다. 여기서 중요한 설계는 각 서브식에 대한 가중치를 이용해 샘플링 확률을 조정함으로써, 높은 가중치를 가진 모델이 더 자주 선택되게 하는 것이다. 저자들은 이 샘플링 과정이 편향되지 않은(unbiased) 추정값을 제공함을 증명하고, 분산 감소를 위한 분할-정복 전략을 제안한다. 즉, 큰 식을 여러 작은 서브식으로 나누고 각각을 독립적으로 샘플링한 뒤, 결과를 결합함으로써 전체 분산을 크게 낮춘다.
이론적 분석에서는 FDC가 최악의 경우에도 전통적인 변수 기반 DP(동적 프로그래밍)와 동일한 복잡도 상한을 가지지만, 실제 구조적 이득으로 평균 실행 시간이 크게 감소함을 보인다. FIS는 표본 수가 충분히 클 때 중앙극한정리에 따라 오차가 √N⁻¹ 비율로 감소한다는 점을 강조한다. 실험에서는 SAT 기반 솔버와 최신 가중 모델 카운팅 엔진을 백엔드로 사용했으며, 베이즈 네트워크 추론, 마코프 로직 네트워크, 그리고 복합 논리식 기반 데이터베이스 질의 등 다양한 베치마크에서 기존 최첨단 방법(예: Variable Elimination, Belief Propagation, Weighted Model Counting) 대비 2~10배 이상의 속도 향상을 기록했다. 특히, 서브식이 많이 공유되는 경우 FDC가 메모리 사용량을 크게 절감하는 것이 눈에 띈다.
전체적으로 이 논문은 공식 수준에서의 구조적 탐색이라는 새로운 패러다임을 제시함으로써, 확률 논리 추론 분야에 중요한 전환점을 제공한다. 향후 연구에서는 더 정교한 중요도 분포 설계, 지식 컴파일과의 결합, 그리고 온라인 추론 시나리오에의 적용 가능성이 기대된다.