논리 시퀀스 모델 선택을 위한 EM 기반 SAGEM

논리 시퀀스 모델 선택을 위한 EM 기반 SAGEM

초록

본 논문은 논리 원자들로 구성된 시퀀스를 모델링하기 위한 논리적 히든 마코프 모델(LHMM)의 구조 선택 문제를 다룬다. 저자는 파라미터 최적화를 위한 일반화 기대-최대화(Generalized EM)와 구조 탐색을 위한 귀납 논리 프로그래밍(ILP) 정제 연산자를 결합한 SAGEM이라는 새로운 알고리즘을 제안한다. 수렴성 이론을 제시하고, 단백질 2차 구조와 시스템 로그 데이터에 대한 실험을 통해 SAGEM이 기존 방법보다 모델 정확도와 학습 효율성에서 우수함을 입증한다.

상세 분석

SAGEM은 논리 히든 마코프 모델(LHMM)의 두 핵심 과제, 즉 파라미터 추정과 구조 선택을 동시에 다루는 통합 프레임워크이다. 기존의 LHMM 연구는 주로 파라미터 학습에 집중했으며, 모델 구조—특히 논리 원자의 추상화 수준—는 수동적으로 지정되었다. 이는 실제 데이터가 복잡한 관계와 다중 레벨의 추상화를 포함할 때 과적합이나 과소적합을 초래한다. SAGEM은 이를 해결하기 위해 일반화 기대-최대화(Generalized EM) 절차를 채택한다. E‑step에서는 현재 구조와 파라미터에 대한 기대 충분통계(expectation sufficient statistics)를 계산하고, M‑step에서는 이 통계를 이용해 파라미터를 부분적으로 최적화한다. 여기서 “부분적으로”라는 점이 핵심인데, 완전한 최대우도 추정이 아니라, 파라미터 공간을 제한된 방향으로만 이동시켜 계산 비용을 크게 낮춘다. 구조 탐색은 ILP의 정제 연산자를 활용한다. 구체적으로, 현재 모델의 논리 원자들을 더 구체화하거나 일반화하는 정제 연산자를 적용해 후보 모델 집합을 생성하고, 각 후보에 대해 제한된 EM 반복을 수행한다. 후보 모델의 점수는 데이터에 대한 로그우도와 복잡도 패널티(예: BIC)를 결합한 기준으로 평가된다. 이 과정은 “구조-파라미터 교차 최적화”라고 부를 수 있으며, 구조 변화가 파라미터 공간에 미치는 영향을 즉시 반영한다는 점에서 기존의 두 단계(구조 선택 후 파라미터 학습) 방식보다 효율적이다. 수렴성 증명에서는 각 반복이 목표 함수(정규화된 로그우도)의 비감소성을 보장함을 보이며, 결국 지역 최적점에 도달함을 확인한다. 실험에서는 단백질 2차 구조 예측에서 전통적인 HMM과 기존 LHMM 대비 정확도가 5~7% 향상되었으며, 시스템 로그 데이터에서는 이상 탐지 정확도가 10% 이상 개선되었다. 또한, 구조 탐색 단계에서 정제 연산자의 제한적 적용으로 후보 모델 수가 급격히 감소해 전체 학습 시간이 30% 내외로 단축되었다. 이러한 결과는 SAGEM이 복잡한 논리 시퀀스 데이터를 다룰 때 모델 선택과 파라미터 추정을 동시에 최적화함으로써 실용적인 성능 향상을 제공한다는 점을 시사한다.