경로 학습은 트리 학습보다 더 어렵다
초록
본 논문은 확률 그래프 모델에서 최적의 경로 구조를 찾는 문제가 최대우도, 최소설명길이, 베이즈 점수 모두에 대해 NP‑hard임을 증명한다. 이는 최적 트리 구조를 다항시간에 찾을 수 있는 반면, 경로라는 더 제한된 구조조차도 계산적으로 어려워짐을 보여준다.
상세 분석
논문은 먼저 확률적 그래프 모델의 학습 목표를 정의하고, 최대우도(ML), 최소설명길이(MDL), 베이즈(Bayesian) 점수라는 세 가지 대표적인 스코어링 함수를 소개한다. 이들 스코어는 모두 “지역 점수”의 합으로 표현되며, 각 변수와 그 부모 집합에 대한 통계량만을 이용한다는 공통점을 가진다. 트리 구조 학습은 이러한 점수들을 이용해 최적의 스패닝 트리를 찾는 전통적인 알고리즘(예: Edmonds, Chow‑Liu)으로 다항시간에 해결 가능하지만, 경로 구조는 각 정점이 정확히 하나의 부모(시작점 제외)만을 갖는 추가 제약이 있다.
저자는 이 제약이 오히려 문제를 더 복잡하게 만든다고 주장한다. 이를 증명하기 위해 무방향 그래프의 해밀턴 경로 존재 여부를 결정하는 NP‑complete 문제를 “최적 경로(Optimal Path, OP) 결정 문제”로 다항시간 환원한다. 환원 과정에서 각 정점을 3가지 값(ternary)으로 갖는 변수로 모델링하고, 그래프의 간선 존재 여부에 따라 서로 다른 8개의 데이터 사례를 생성한다. 이렇게 만든 데이터셋은 다음과 같은 성질을 만족한다. (i) 모든 변수의 마진 카운트가 동일, (ii) 같은 부모 집합을 갖는 경우 지역 점수가 동일, (iii) 부모가 없는 경우와 한 개의 부모가 있는 경우의 점수 차이가 일정 상수 α 로 정의, (iv) 간선이 존재하는 쌍에 대해서는 점수가 α보다 크게, (v) 간선이 없는 쌍에 대해서는 점수가 α보다 작게 설정된다. 이러한 설계 덕분에 그래프에 해밀턴 경로가 존재하면 점수 k=α+ (n−1)·α 를 달성하는 방향성 경로 모델이 존재하고, 반대로 경로 모델의 점수가 k 이상이면 원 그래프에 해밀턴 경로가 존재한다는 일대일 대응이 성립한다.
핵심은 데이터셋의 크기가 원 그래프의 크기에 대해 다항적으로 제한된다는 점이다. 따라서 OP 결정 문제가 다항시간에 해결될 경우, 모든 NP‑complete 문제도 다항시간에 해결될 수 있음을 보이며, OP 문제는 NP‑hard임을 확립한다. 이 결과는 ML, MDL, 베이즈 세 점수 모두에 적용되며, 특히 “비정보적” 사전(Uniform prior) 하에서도 베이즈 점수의 NP‑hard성을 보여준다.
논문은 또한 무방향 경로 모델에 대한 확장 가능성을 언급한다. 무방향 경로의 점수식도 동일하게 지역 점수의 합으로 표현되므로, 위의 NP‑hardness 결과가 그대로 적용된다. 마지막으로, 최적 트리 모델은 언제나 최적 경로 모델보다 점수가 크거나 같으므로, 휴리스틱하게 트리 모델을 먼저 찾고 이를 기반으로 가중 해밀턴 경로를 탐색하는 방법이 실용적일 수 있음을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기