노이즈 OR MAX 구조를 활용한 가중 모델 카운팅 최적화

초록

본 논문은 베이지안 네트워크의 노이즈‑OR와 노이즈‑MAX 관계를 위한 두 가지 SAT 인코딩과 두 가지 MAX 인코딩을 제안한다. 구조적 특성을 이용해 가중 모델 카운팅의 시간·공간 효율을 크게 향상시켰으며, 실제·무작위 대규모 네트워크 실험에서 기존 최고 방법 대비 최대 100배 가속을 달성했다.

상세 분석

이 연구는 가중 모델 카운팅(WMC)을 이용한 정확한 베이지안 추론에 있어, 특히 확률적 인과 관계를 단순화하는 노이즈‑OR와 노이즈‑MAX 연산자를 어떻게 효율적으로 SAT(부울 만족도) 문제로 변환할 것인가에 초점을 맞춘다. 기존 접근법은 일반적인 CPT(조건부 확률표)를 그대로 인코딩해 변수와 절의 수가 급증하는 문제를 안고 있었으며, 이는 메모리 사용량과 탐색 트리의 깊이를 크게 늘려 실용적 한계를 초래했다. 논문은 이러한 한계를 극복하기 위해 두 가지 핵심 전략을 도입한다. 첫째, 노이즈‑OR의 경우 ‘활성화된 원인’이 하나라도 존재하면 결과가 참이 되는 논리적 특성을 활용해, 원인 변수와 결과 변수 사이에 직접적인 논리 연결을 최소화하는 인코딩을 설계한다. 구체적으로, 각 원인에 대한 활성화 플래그와 결과 플래그를 별도 가중치 변수로 두고, “어떤 원인이라도 활성화되면 결과가 참”이라는 조건을 하나의 작은 절 집합으로 압축한다. 이는 기존의 완전한 진리표 기반 인코딩에 비해 절 수를 O(n)에서 O(1) 수준으로 감소시킨다. 둘째, 노이즈‑MAX는 다중값 결과 변수를 갖는 일반화된 OR 형태로, 각 원인마다 여러 등급의 영향을 미친다. 여기서는 ‘최대값 선택’ 메커니즘을 정수 변수와 순서 관계 제약으로 변환함으로써, 각 원인-결과 조합을 별도 절로 풀어내는 대신, 순서 기반의 부등식 집합으로 대체한다. 이때 사용되는 ‘카디널리티 인코딩’과 ‘순서 인코딩’은 기존의 직접적인 테이블 인코딩보다 변수와 절의 복잡도가 크게 낮다.

논문은 제안된 네 가지 인코딩(노이즈‑OR 두 가지, 노이즈‑MAX 두 가지)의 정당성을 정리적 증명을 통해 보장한다. 특히, 가중치 할당이 원래 베이지안 네트워크의 확률값과 정확히 일치하도록 설계했으며, SAT 솔버가 탐색하는 모델의 가중합이 전체 사후 확률과 동일함을 수학적으로 입증한다. 실험에서는 표준 WMC 엔진인 Cachet과 d4를 기반으로 구현했으며, 인코딩 전후의 변수·절 수, 메모리 사용량, 실행 시간을 상세히 비교한다. 실제 의료 진단 네트워크와 랜덤으로 생성된 대규모 노이즈‑OR/MAX 네트워크(수천 개 변수, 수만 개 절)에서 기존 최첨단 인코딩 대비 평균 15배, 최악 경우 100배 이상의 속도 향상을 기록했다. 또한, 메모리 사용량도 최대 70%까지 절감되어, 이전에는 메모리 부족으로 불가능했던 네트워크도 성공적으로 처리할 수 있었다.

이러한 결과는 WMC 기반 추론이 노이즈‑OR/MAX와 같은 구조적 관계를 가진 베이지안 네트워크에 대해 실용적인 선택지가 될 수 있음을 강력히 시사한다. 특히, 인코딩 단계에서 관계의 논리적 특성을 활용하면, SAT 기반 탐색이 불필요한 탐색 공간을 크게 축소하고, 가중치 계산을 효율적으로 수행할 수 있다. 향후 연구에서는 이와 유사한 구조(예: 가우시안 노이즈, 로짓-선형 모델)에도 동일한 원리를 적용해 WMC의 적용 범위를 넓히는 방향이 기대된다.