마코프 차수 정확 검정
초록
본 논문은 마코프 체인의 차수를 검정하기 위해, 관측 데이터와 동일한 n차 전이 통계량을 갖는 서브게이트 시퀀스를 균등하게 생성하는 새로운 알고리즘을 제시하고, 이를 이용해 작은 표본에서도 유효한 정확 검정 절차를 구현한다.
상세 분석
이 연구는 마코프 체인의 차수 판별을 전통적인 χ² 검정의 근사적 한계에서 벗어나, 표본 크기에 무관하게 정확한 p‑값을 제공하는 방법을 제안한다. 핵심 아이디어는 “n차 전이 카운트 행렬(F)”을 고정한 채, 시작 상태와 종료 상태를 동일하게 유지하면서 가능한 모든 시퀀스 집합 S를 정의하고, Whittle 공식(N_uv(F)=∏_iF_i·! /∏_ijF_ij!·C_vu)으로 그 크기를 계산한다. 이때 C_vu는 행·열을 제거한 행렬의 행렬식으로 구해지며, 큰 팩터리얼은 Stirling 전개를 이용해 로그 형태로 처리한다.
그 다음, S에서 균등 샘플을 추출하기 위한 효율적 절차가 제시된다. 첫 번째 심볼 y₁을 시작 상태 u로 고정하고, 두 번째 심볼 y₂ 후보를 F_{y₁·}>0인 값들 중에서 선택한다. 각 후보 y₂에 대해 남은 전이 카운트를 F′=F−δ_{y₁y₂}로 업데이트하고, Whittle 공식으로 남은 시퀀스 수 N_{y₂v}(F′)를 계산한다. 후보는 N_{y₂v}(F′)에 비례하는 확률로 무작위 선택되며, 이렇게 단계별로 진행하면 전체 경로가 S에서 균등하게 샘플링된다. 알고리즘의 복잡도는 시퀀스 길이 N에 선형적으로 증가하고, 전이 행렬이 희소하면 메모리와 연산량이 크게 절감된다.
검정 통계량으로는 전통적인 χ²(예상 카운트와 관측 카운트 차이)와 엔트로피 비율 H(x_{t+1}|x_t…x_{t−n+1})가 사용된다. χ²는 자유도 d를 정확히 계산해야 하는데, 이는 전이 행렬의 블록 구조와 각 블록의 행·열 차원(r_k−1)(c_k−1)으로 구한다. 그러나 작은 표본에서는 χ²의 근사 분포가 실제 분포와 크게 달라질 수 있다. 엔트로피 비율은 n차 블록 엔트로피를 직접 계산하므로 자유도 계산이 필요 없으며, 계산 비용도 낮다.
실험에서는 M=4개의 상태를 갖는 n=14 차 마코프 체인을 무작위로 생성하고, 각각 N=25, 50, 100, 200, 400, 2500 길이의 시계열에 대해 2500개의 서브게이트를 생성했다. 표 ⅠⅢ은 1차, 2차, 3차 체인에 대해 χ²와 χ²_surg(서브게이트 기반 정확 분포), H_surg(엔트로피 기반 정확 검정)의 크기(제1종 오류)와 검정력(제2종 오류 회피율)을 보여준다. 결과는 작은 N에서는 χ²의 크기가 명목 유의수준(0.05)보다 크게 초과하고 검정력이 현저히 낮아 과도한 제1종 오류와 낮은 검정력을 초래함을 확인한다. 반면 서브게이트 기반 χ²_surg와 H_surg는 표본이 10~200 정도면 이미 크기가 0.05에 근접하고, 검정력도 0.9 이상으로 급격히 상승한다. 특히 엔트로피 기반 검정은 계산이 간단하면서도 χ²_surg와 거의 동일한 성능을 보이며, 고차(3차, 4차) 검정에서도 유효함을 입증한다.
알고리즘 구현은 파이썬 코드로 공개돼(리포지터리
댓글 및 학술 토론
Loading comments...
의견 남기기