트리 그래프와 켤레 오즈(Conjugate Odds)로 풀어보는 다변량 결측 데이터 모델링
📝 Abstract
In this paper, we analyze a specific class of missing not at random (MNAR) assumptions called tree graphs, extending upon the work of pattern graphs. We build off previous work by introducing the idea of a conjugate odds family in which certain parametric models on the selection odds can preserve the data distribution family across all missing data patterns. Under a conjugate odds family and a tree graph assumption, we are able to model the full data distribution elegantly in the sense that for the observed data, we obtain a model that is conjugate from the complete-data, and for the missing entries, we create a simple imputation model. In addition, we investigate the problem of graph selection, sensitivity analysis, and statistical inference. Using both simulations and real data, we illustrate the applicability of our method.
💡 Analysis
**
1. 연구 배경 및 필요성
- 결측 데이터의 현실적 중요성: 의료, 사회과학, 경제, 머신러닝 등 거의 모든 분야에서 결측이 발생하며, 무시할 경우 편향과 검정력 감소를 초래한다.
- MNAR의 어려움: 결측 확률이 관측되지 않은 값에 의존하므로 추가 가정 없이는 식별이 불가능하다. 기존의 선택 모델·패턴‑믹스처 모델은 비검증 가능한 가정을 필요로 한다.
- 그래프 기반 접근: 기존의 missing‑data DAG, m‑DAG, 패턴 그래프는 강력하지만 모델 선택이 복잡하고 해석이 어려워 실무 적용에 장벽이 있다.
2. 핵심 아이디어
| 요소 | 정의 | 역할 |
|---|---|---|
| 트리 그래프 (Tree Graph) | 모든 패턴이 단일 루트(전체 관측)에서 시작해 하나의 부모‑자식 경로만을 갖는 규칙적인 패턴 그래프 | 그래프 복잡도를 최소화하고, 각 패턴마다 하나의 선택 오즈 모델만 필요하게 함 |
| 케일레이트 오즈 (Conjugate Odds) 패밀리 | 선택 오즈를 특정 파라메트릭 형태(예: 로짓 선형)로 지정해, 관측 데이터와 결측 데이터의 조건부 분포가 켤레 관계를 이루도록 함 | 완전 데이터 모델과 관측 데이터 모델이 동일한 형태(공액)로 유지돼 추정·임퓨테이션이 일관됨 |
| 비모수 식별 | 트리 그래프와 켤레 오즈 가정 하에 전체 데이터 분포 p(x, r)를 비모수적으로 식별 | MNAR 상황에서도 추가적인 외부 변수 없이 식별 가능 |
3. 이론적 기여
- 정리 1 (식별성) – 트리 그래프는 고유한 MNAR 가정을 제공하며, 전체 데이터 분포를 비모수적으로 식별한다.
- 정리 2 (MCAR 포용) – 데이터가 MCAR일 경우에도 트리 그래프 가정이 진정한 분포를 복원한다는 보장.
- 정리 3 (동등 정의) – 트리 그래프를 “단일 경로”, “단일 부모”, “최소 엣지 수(2^d‑1)” 세 관점에서 동등하게 정의, 그래프 생성·열거가 용이해진다.
4. 방법론적 흐름
- 그래프 정의 및 구성 (Section 2) – 패턴들의 부분 순서를 이용해 트리 구조를 구축.
- 케일레이트 오즈 모델링 (Section 3) – 선택 오즈를 로그-오즈 비율 형태로 파라메터화, 공액성(conjugacy) 확보.
- 관측·결측 모델 동시 구축 (Section 4) –
- 관측 데이터: 완전 데이터 모델의 공액 형태 → 추정 효율성 향상.
- 결측 데이터: 부모 패턴의 조건부 분포를 이용한 간단한 임퓨테이션 모델.
- 그래프 선택 전략 (Section 5) –
- 전문가 지식 기반: 도메인 지식으로 부모‑자식 관계 지정.
- 부분 순서 기반: 변수 간 결측 의존성을 부분 순서로 표현.
- 데이터 기반: 정보 기준(AIC/BIC) 혹은 교차 검증을 통해 최적 트리 탐색.
- 민감도 분석 및 추론 (Appendix F, E) – 켤레 오즈 파라미터를 변형해 가정 위반 시 결과 변동을 정량화.
5. 실험 및 적용
- 시뮬레이션: 다양한 차원(d = 5~15)과 결측 메커니즘(MCAR, MAR, MNAR)에서 트리‑케일레이트 오즈 모델이 기존 MICE, MissForest 대비 편향 감소와 RMSE 개선을 보임.
- 알츠하이머병 데이터: 12개 바이오마커와 인지 점수에 비단조(non‑monotone) 결측이 존재. 트리 그래프(최소 깊이)와 켤레 오즈를 적용한 임퓨테이션이 후속 회귀 분석에서 더 일관된 β 추정치를 제공.
6. 장점 및 한계
| 장점 | 한계 |
|---|---|
| • 그래프 구조가 단순해 모델 선택·해석이 직관적 | • 트리 구조가 실제 복잡한 결측 의존성을 완전히 포착하지 못할 수 있음 |
| • 켤레 오즈 덕분에 관측·결측 모델이 하나의 파라메트릭 패밀리 안에 포함 | • 켤레 오즈 형태에 대한 사전 가정이 잘못되면 편향이 발생 |
| • 비모수 식별 보장으로 추가 보조 변수 필요 없음 | • 고차원(d ≫ 10)에서는 2^d‑1개의 패턴을 모두 다루는 것이 계산적으로 부담 |
| • 민감도 분석 프레임워크 제공 | • 그래프 선택을 위한 데이터 기반 알고리즘이 아직 초기 단계(탐색 비용 높음) |
7. 향후 연구 방향
- 확장 트리 구조 – 다중 부모를 허용하되, 복잡도 제어를 위한 정규화(예: 베이지안 스파스 프라이어) 연구.
- 자동 그래프 학습 – 강화학습 혹은 그래프 신경망을 이용해 데이터에서 최적 트리 그래프를 직접 학습하는 방법 개발.
- 케일레이트 오즈의 일반화 – 비선형/비정규 오즈 모델(예: 가우시안 프로세스 오즈) 도입으로 더 유연한 분포 적합 가능성 탐색.
- 대규모 데이터 적용 – 분산 컴퓨팅 환경에서 트리‑케일레이트 오즈 추정 알고리즘을 구현해 빅데이터 결측 문제에 적용.
**
📄 Content
누락 데이터는 의료, 사회과학, 경제학, 그리고 머신러닝 전반에 걸쳐 널리 존재합니다. 설문조사 비응답, 장비 고장, 개인정보 보호 요구 등 다양한 원인으로 발생하며, 데이터가 누락되는 방식은 통계 분석의 타당성에 큰 영향을 미칩니다. 누락을 무시하면 결과가 편향되고 통계적 검정력(power)이 감소하는데, 특히 대규모 연구에서 불완전한 레코드가 흔히 나타나는 경우(예: R. J. A. Little & Rubin, 2002) 이러한 문제가 두드러집니다.
Rubin의 프레임워크는 누락 메커니즘을 완전 무작위 누락(MCAR), 조건부 무작위 누락(MAR), **무작위가 아닌 누락(MNAR)**의 세 가지 범주로 구분합니다(R. J. Little & Rubin, 1989). MCAR 또는 MAR 하에서는 표준적인 방법들이 효과적이지만, MNAR은 누락 확률이 관측되지 않은 값에 의존하기 때문에 추가 가정 없이는 분포를 식별할 수 없는 근본적으로 더 어려운 문제입니다.
특히 다변량·비단조(non‑monotone) 누락 상황에서는 누락이 변수마다 불규칙하게 발생하므로 문제는 더욱 심각해집니다.
기존 실무적 접근과 한계
대부분의 실용적인 방법은 **대체(imputation)**에 의존합니다. 대표적인 예로는
- 연쇄 방정식에 의한 다중 대체(mice; van Buuren & Groothuis‑Oudshoorn, 2011),
- MissForest(Stekhoven & Bühlmann, 2011)
가 있습니다. 이들 방법은 유연성을 장점으로 내세우지만, 암묵적으로 MAR을 가정하거나 서로 일관되지 않을 수 있는 조건부 분포에 의존합니다. 특히 MissForest와 같은 방법은 **단일 대체(single imputation)**에 불과해 관심 파라미터에 따라 **불일치 추정량(inconsistent estimator)**을 초래할 수 있습니다. 따라서 MNAR 상황에서는 편향이나 비일관성(bias or incoherence)에 취약합니다.
고차원·변수 간 상호 의존성이 강한 경우, 대체 분포 자체를 직접 모델링하는 것도 어려워 해석 가능하면서 이론적으로 타당한 방법을 찾는 동기가 됩니다.
MNAR에 대한 고전적 접근
MNAR을 다루는 전통적 방법으로는
- 선택 모델(selection models; Diggle & Kenward, 1994),
- 패턴‑혼합 모델(pattern‑mixture models; R. J. Little, 1993)
이 있습니다. 두 접근법 모두 식별 가능성을 확보하기 위해 검증할 수 없는 가정을 필요로 합니다. 최근에는
- “자기 검열 없음(no self‑censoring)” 가정(Shpitser, 2016; Sadinle & Reiter, 2017),
- 보조 변수(auxiliary variables) 활용(Miao & Tchetgen Tchetgen, 2016),
- CCMV‑형 제한(CCMV‑type restrictions; Tchetgen Tchetgen et al., 2018)
과 같은 전략이 제안되었습니다.
또한 그래픽 프레임워크—예를 들어 **누락 데이터 DAG(Directed Acyclic Graph; Mohan et al., 2013)**와 패턴 그래프(pattern graphs; Chen, 2022)—는 누락 메커니즘을 시각적으로 표현하는 강력한 도구이지만, 그 일반성 때문에 모델 선택이 어려워지는 단점이 있습니다.
본 논문의 기여
본 논문은 위와 같은 최신 연구들을 바탕으로 **패턴 그래프 중에서도 구조가 단순하고 계산적으로 다루기 쉬운 ‘트리 그래프(tree graphs)’**에 초점을 맞춥니다. 트리 그래프는
- 모델 명세가 간단하고,
- 기존의 여러 MNAR 가정과 자연스럽게 연결되며,
- 확장 가능하고 해석 가능한 대체(imputation) 전략의 기반이 됩니다.
이를 보완하기 위해 **‘공액 오즈(conjugate odds)’**라는 새로운 파라메트릭 도구를 도입합니다. 공액 오즈는 조건부 분포를 유연하면서도 닫힌 형태(closed‑form) 로 모델링할 수 있게 해 주어, 트리 그래프와 결합했을 때 비모수적 식별(non‑parametric identification), 추정(inference), 그리고 **민감도 분석(sensitivity analysis)**을 일관되게 수행할 수 있는 통합 프레임워크를 제공합니다.
논문의 구성
- 섹션 2 – 트리 그래프의 정의와 주요 성질을 제시하고, 관련 이론을 전개합니다.
- 섹션 3 – 도메인 적응(domain adaptation)에서 유용한 공액 오즈 개념을 소개합니다.
- 섹션 4 – 트리 그래프와 공액 오즈를 결합하여 대체 모델과 관측 데이터 모델을 동시에 구축하는 방법을 제시합니다.
- 섹션 5 – 트리 그래프를 선택하는 세 가지 접근법(사전 지식, 부분 순서(partial‑ordering), 데이터‑구동 방식)을 논의합니다.
- 섹션 6 – 알츠하이머병 데이터에 트리 그래프와 공액 오즈를 적용한 사례 연구를 제시합니다.
- 부록 – 시뮬레이션을 통한 트리 그래프 성능 평가(부록 B), 통계적 추론 문제(부록 E), 민감도 분석(부록 F) 등을 추가로 다룹니다.
기본 기호와 설정
- 대문자 굵은 글씨(예: X)는 벡터형 확률 변수를 나타냅니다.
- 문제 설정: ( \mathbf{X} = (X_1, X_2, \dots, X_d)^\top \in \mathbb{R}^d )는 (d)개의 변수로 이루어진 무작위 벡터이며, 각 변수는 누락될 수 있습니다. 따라서 가능한 누락 패턴은 최대 (2^d)가지가 존재합니다.
- 누락 지시 변수 ( \mathbf{R} = (R_1,\dots,R_d)^\top \in {0,1}^d )는 각 변수의 관측 여부를 나타냅니다. (R_j = 0)이면 (X_j)가 누락된 것입니다.
고정된 패턴 (r)에 대해
[
\mathbf{X}r = (X_j : r_j = 1), \qquad
\mathbf{X}{\bar r} = (X_j : r_j = 0)
]
라 두면, (\mathbf{X}r)은 관측된 부분, (\mathbf{X}{\bar r})는 누락된 부분을 의미합니다.
전체 데이터는 완전 데이터 분포 (p(\mathbf{x},\mathbf{r}))에서 i.i.d.로 샘플링된다고 가정하고, 관측된 데이터는 해당 패턴 (r)에 의해 결정됩니다. 여기서 full‑data distribution과 pattern‑specific joint distribution을 각각 (p(\mathbf{x},\mathbf{r}))와 (p(\mathbf{x}\mid\mathbf{r}))라 부릅니다.
패턴 그래프와 트리 그래프
패턴 그래프의 정의
Chen(2022)은 패턴 그래프를 “비단조 누락을 모델링하고, 전체 데이터 분포 (p(\mathbf{x},\mathbf{r}))를 비모수적으로 식별할 수 있게 하는 방향성 그래프”라고 정의했습니다. 패턴 그래프는 모든 누락 패턴을 정점(vertex)으로, 패턴 간 정보 흐름을 간선(edge)으로 표현합니다.
패턴들에 부분 순서(partial order) 를 부여합니다. 두 패턴 (s, r \in \mathcal{R})에 대해
[
s \succ r \quad \Longleftrightarrow \quad {j : r_j = 1} \subseteq {j : s_j = 1}
]
즉, (s)가 (r)보다 관측 변수가 더 많을 때 (s)가 (r)를 포함한다는 의미입니다. 이 부분 순서를 기반으로 모든 패턴을 연결한 방향성 그래프가 패턴 그래프가 됩니다.
정규 패턴 그래프(regular pattern graph)
- 단일 소스 노드: (\mathbf{1}_d = (1,\dots,1)) (모든 변수가 관측된 경우)만이 출발점(source) 입니다.
- 정규성(regularity): 그래프에 간선 ((s \to r))가 존재하면 반드시 (s \succ r)이어야 합니다.
이러한 정규성은 패턴이 부모(pattern’s parent)로부터 정보를 빌려와 누락을 모델링한다는 해석을 가능하게 합니다. 부모 집합을 (\text{PA}_\mathcal{T}(r))라 하면, 패턴‑혼합 모델은 다음과 같이 인수분해됩니다.
[ p(\mathbf{x}{\bar r}\mid \mathbf{x}r, \mathbf{R}=r) = \prod{s \in \text{PA}\mathcal{T}(r)} p(\mathbf{x}_{\bar r}\mid \mathbf{x}_r, \mathbf{R}=s) . \tag{P1} ]
동일하게 선택 오즈(selection odds) 모델은
[ \frac{P(\mathbf{R}=r\mid\mathbf{X})}{P(\mathbf{R}=s\mid\mathbf{X})} = \frac{P(\mathbf{R}=r\mid\mathbf{X}_r)}{P(\mathbf{R}=s\mid\mathbf{X}r)}, \qquad s\in\text{PA}\mathcal{T}(r) . \tag{P2} ]
Chen(2022)은 (P1)과 (P2)가 극소 양성성(positivity) 조건 하에서 동등함을 증명했으며, 이를 통해 두 정의를 자유롭게 전환할 수 있음을 보였습니다.
트리 그래프(tree graph)
이 글은 AI가 자동 번역 및 요약한 내용입니다.