트리 그래프와 켤레 오즈(Conjugate Odds)로 풀어보는 다변량 결측 데이터 모델링

읽는 시간: 7 분
...

📝 Abstract

In this paper, we analyze a specific class of missing not at random (MNAR) assumptions called tree graphs, extending upon the work of pattern graphs. We build off previous work by introducing the idea of a conjugate odds family in which certain parametric models on the selection odds can preserve the data distribution family across all missing data patterns. Under a conjugate odds family and a tree graph assumption, we are able to model the full data distribution elegantly in the sense that for the observed data, we obtain a model that is conjugate from the complete-data, and for the missing entries, we create a simple imputation model. In addition, we investigate the problem of graph selection, sensitivity analysis, and statistical inference. Using both simulations and real data, we illustrate the applicability of our method.

💡 Analysis

**

1. 연구 배경 및 필요성

  • 결측 데이터의 현실적 중요성: 의료, 사회과학, 경제, 머신러닝 등 거의 모든 분야에서 결측이 발생하며, 무시할 경우 편향과 검정력 감소를 초래한다.
  • MNAR의 어려움: 결측 확률이 관측되지 않은 값에 의존하므로 추가 가정 없이는 식별이 불가능하다. 기존의 선택 모델·패턴‑믹스처 모델은 비검증 가능한 가정을 필요로 한다.
  • 그래프 기반 접근: 기존의 missing‑data DAG, m‑DAG, 패턴 그래프는 강력하지만 모델 선택이 복잡하고 해석이 어려워 실무 적용에 장벽이 있다.

2. 핵심 아이디어

요소정의역할
트리 그래프 (Tree Graph)모든 패턴이 단일 루트(전체 관측)에서 시작해 하나의 부모‑자식 경로만을 갖는 규칙적인 패턴 그래프그래프 복잡도를 최소화하고, 각 패턴마다 하나의 선택 오즈 모델만 필요하게 함
케일레이트 오즈 (Conjugate Odds) 패밀리선택 오즈를 특정 파라메트릭 형태(예: 로짓 선형)로 지정해, 관측 데이터와 결측 데이터의 조건부 분포가 켤레 관계를 이루도록 함완전 데이터 모델과 관측 데이터 모델이 동일한 형태(공액)로 유지돼 추정·임퓨테이션이 일관됨
비모수 식별트리 그래프와 켤레 오즈 가정 하에 전체 데이터 분포 p(x, r)를 비모수적으로 식별MNAR 상황에서도 추가적인 외부 변수 없이 식별 가능

3. 이론적 기여

  1. 정리 1 (식별성) – 트리 그래프는 고유한 MNAR 가정을 제공하며, 전체 데이터 분포를 비모수적으로 식별한다.
  2. 정리 2 (MCAR 포용) – 데이터가 MCAR일 경우에도 트리 그래프 가정이 진정한 분포를 복원한다는 보장.
  3. 정리 3 (동등 정의) – 트리 그래프를 “단일 경로”, “단일 부모”, “최소 엣지 수(2^d‑1)” 세 관점에서 동등하게 정의, 그래프 생성·열거가 용이해진다.

4. 방법론적 흐름

  1. 그래프 정의 및 구성 (Section 2) – 패턴들의 부분 순서를 이용해 트리 구조를 구축.
  2. 케일레이트 오즈 모델링 (Section 3) – 선택 오즈를 로그-오즈 비율 형태로 파라메터화, 공액성(conjugacy) 확보.
  3. 관측·결측 모델 동시 구축 (Section 4) –
    • 관측 데이터: 완전 데이터 모델의 공액 형태 → 추정 효율성 향상.
    • 결측 데이터: 부모 패턴의 조건부 분포를 이용한 간단한 임퓨테이션 모델.
  4. 그래프 선택 전략 (Section 5) –
    • 전문가 지식 기반: 도메인 지식으로 부모‑자식 관계 지정.
    • 부분 순서 기반: 변수 간 결측 의존성을 부분 순서로 표현.
    • 데이터 기반: 정보 기준(AIC/BIC) 혹은 교차 검증을 통해 최적 트리 탐색.
  5. 민감도 분석 및 추론 (Appendix F, E) – 켤레 오즈 파라미터를 변형해 가정 위반 시 결과 변동을 정량화.

5. 실험 및 적용

  • 시뮬레이션: 다양한 차원(d = 5~15)과 결측 메커니즘(MCAR, MAR, MNAR)에서 트리‑케일레이트 오즈 모델이 기존 MICE, MissForest 대비 편향 감소와 RMSE 개선을 보임.
  • 알츠하이머병 데이터: 12개 바이오마커와 인지 점수에 비단조(non‑monotone) 결측이 존재. 트리 그래프(최소 깊이)와 켤레 오즈를 적용한 임퓨테이션이 후속 회귀 분석에서 더 일관된 β 추정치를 제공.

6. 장점 및 한계

장점한계
• 그래프 구조가 단순해 모델 선택·해석이 직관적• 트리 구조가 실제 복잡한 결측 의존성을 완전히 포착하지 못할 수 있음
• 켤레 오즈 덕분에 관측·결측 모델이 하나의 파라메트릭 패밀리 안에 포함• 켤레 오즈 형태에 대한 사전 가정이 잘못되면 편향이 발생
• 비모수 식별 보장으로 추가 보조 변수 필요 없음• 고차원(d ≫ 10)에서는 2^d‑1개의 패턴을 모두 다루는 것이 계산적으로 부담
• 민감도 분석 프레임워크 제공• 그래프 선택을 위한 데이터 기반 알고리즘이 아직 초기 단계(탐색 비용 높음)

7. 향후 연구 방향

  1. 확장 트리 구조 – 다중 부모를 허용하되, 복잡도 제어를 위한 정규화(예: 베이지안 스파스 프라이어) 연구.
  2. 자동 그래프 학습 – 강화학습 혹은 그래프 신경망을 이용해 데이터에서 최적 트리 그래프를 직접 학습하는 방법 개발.
  3. 케일레이트 오즈의 일반화 – 비선형/비정규 오즈 모델(예: 가우시안 프로세스 오즈) 도입으로 더 유연한 분포 적합 가능성 탐색.
  4. 대규모 데이터 적용 – 분산 컴퓨팅 환경에서 트리‑케일레이트 오즈 추정 알고리즘을 구현해 빅데이터 결측 문제에 적용.

**

📄 Content

누락 데이터는 의료, 사회과학, 경제학, 그리고 머신러닝 전반에 걸쳐 널리 존재합니다. 설문조사 비응답, 장비 고장, 개인정보 보호 요구 등 다양한 원인으로 발생하며, 데이터가 누락되는 방식은 통계 분석의 타당성에 큰 영향을 미칩니다. 누락을 무시하면 결과가 편향되고 통계적 검정력(power)이 감소하는데, 특히 대규모 연구에서 불완전한 레코드가 흔히 나타나는 경우(예: R. J. A. Little & Rubin, 2002) 이러한 문제가 두드러집니다.

Rubin의 프레임워크는 누락 메커니즘을 완전 무작위 누락(MCAR), 조건부 무작위 누락(MAR), **무작위가 아닌 누락(MNAR)**의 세 가지 범주로 구분합니다(R. J. Little & Rubin, 1989). MCAR 또는 MAR 하에서는 표준적인 방법들이 효과적이지만, MNAR은 누락 확률이 관측되지 않은 값에 의존하기 때문에 추가 가정 없이는 분포를 식별할 수 없는 근본적으로 더 어려운 문제입니다.

특히 다변량·비단조(non‑monotone) 누락 상황에서는 누락이 변수마다 불규칙하게 발생하므로 문제는 더욱 심각해집니다.


기존 실무적 접근과 한계

대부분의 실용적인 방법은 **대체(imputation)**에 의존합니다. 대표적인 예로는

  • 연쇄 방정식에 의한 다중 대체(mice; van Buuren & Groothuis‑Oudshoorn, 2011),
  • MissForest(Stekhoven & Bühlmann, 2011)

가 있습니다. 이들 방법은 유연성을 장점으로 내세우지만, 암묵적으로 MAR을 가정하거나 서로 일관되지 않을 수 있는 조건부 분포에 의존합니다. 특히 MissForest와 같은 방법은 **단일 대체(single imputation)**에 불과해 관심 파라미터에 따라 **불일치 추정량(inconsistent estimator)**을 초래할 수 있습니다. 따라서 MNAR 상황에서는 편향이나 비일관성(bias or incoherence)에 취약합니다.

고차원·변수 간 상호 의존성이 강한 경우, 대체 분포 자체를 직접 모델링하는 것도 어려워 해석 가능하면서 이론적으로 타당한 방법을 찾는 동기가 됩니다.


MNAR에 대한 고전적 접근

MNAR을 다루는 전통적 방법으로는

  • 선택 모델(selection models; Diggle & Kenward, 1994),
  • 패턴‑혼합 모델(pattern‑mixture models; R. J. Little, 1993)

이 있습니다. 두 접근법 모두 식별 가능성을 확보하기 위해 검증할 수 없는 가정을 필요로 합니다. 최근에는

  • “자기 검열 없음(no self‑censoring)” 가정(Shpitser, 2016; Sadinle & Reiter, 2017),
  • 보조 변수(auxiliary variables) 활용(Miao & Tchetgen Tchetgen, 2016),
  • CCMV‑형 제한(CCMV‑type restrictions; Tchetgen Tchetgen et al., 2018)

과 같은 전략이 제안되었습니다.

또한 그래픽 프레임워크—예를 들어 **누락 데이터 DAG(Directed Acyclic Graph; Mohan et al., 2013)**와 패턴 그래프(pattern graphs; Chen, 2022)—는 누락 메커니즘을 시각적으로 표현하는 강력한 도구이지만, 그 일반성 때문에 모델 선택이 어려워지는 단점이 있습니다.


본 논문의 기여

본 논문은 위와 같은 최신 연구들을 바탕으로 **패턴 그래프 중에서도 구조가 단순하고 계산적으로 다루기 쉬운 ‘트리 그래프(tree graphs)’**에 초점을 맞춥니다. 트리 그래프는

  1. 모델 명세가 간단하고,
  2. 기존의 여러 MNAR 가정과 자연스럽게 연결되며,
  3. 확장 가능하고 해석 가능한 대체(imputation) 전략의 기반이 됩니다.

이를 보완하기 위해 **‘공액 오즈(conjugate odds)’**라는 새로운 파라메트릭 도구를 도입합니다. 공액 오즈는 조건부 분포를 유연하면서도 닫힌 형태(closed‑form) 로 모델링할 수 있게 해 주어, 트리 그래프와 결합했을 때 비모수적 식별(non‑parametric identification), 추정(inference), 그리고 **민감도 분석(sensitivity analysis)**을 일관되게 수행할 수 있는 통합 프레임워크를 제공합니다.

논문의 구성

  1. 섹션 2 – 트리 그래프의 정의와 주요 성질을 제시하고, 관련 이론을 전개합니다.
  2. 섹션 3 – 도메인 적응(domain adaptation)에서 유용한 공액 오즈 개념을 소개합니다.
  3. 섹션 4 – 트리 그래프와 공액 오즈를 결합하여 대체 모델관측 데이터 모델을 동시에 구축하는 방법을 제시합니다.
  4. 섹션 5 – 트리 그래프를 선택하는 세 가지 접근법(사전 지식, 부분 순서(partial‑ordering), 데이터‑구동 방식)을 논의합니다.
  5. 섹션 6 – 알츠하이머병 데이터에 트리 그래프와 공액 오즈를 적용한 사례 연구를 제시합니다.
  6. 부록 – 시뮬레이션을 통한 트리 그래프 성능 평가(부록 B), 통계적 추론 문제(부록 E), 민감도 분석(부록 F) 등을 추가로 다룹니다.

기본 기호와 설정

  • 대문자 굵은 글씨(예: X)는 벡터형 확률 변수를 나타냅니다.
  • 문제 설정: ( \mathbf{X} = (X_1, X_2, \dots, X_d)^\top \in \mathbb{R}^d )는 (d)개의 변수로 이루어진 무작위 벡터이며, 각 변수는 누락될 수 있습니다. 따라서 가능한 누락 패턴은 최대 (2^d)가지가 존재합니다.
  • 누락 지시 변수 ( \mathbf{R} = (R_1,\dots,R_d)^\top \in {0,1}^d )는 각 변수의 관측 여부를 나타냅니다. (R_j = 0)이면 (X_j)가 누락된 것입니다.

고정된 패턴 (r)에 대해
[ \mathbf{X}r = (X_j : r_j = 1), \qquad \mathbf{X}{\bar r} = (X_j : r_j = 0) ] 라 두면, (\mathbf{X}r)은 관측된 부분, (\mathbf{X}{\bar r})는 누락된 부분을 의미합니다.

전체 데이터는 완전 데이터 분포 (p(\mathbf{x},\mathbf{r}))에서 i.i.d.로 샘플링된다고 가정하고, 관측된 데이터는 해당 패턴 (r)에 의해 결정됩니다. 여기서 full‑data distributionpattern‑specific joint distribution을 각각 (p(\mathbf{x},\mathbf{r}))와 (p(\mathbf{x}\mid\mathbf{r}))라 부릅니다.


패턴 그래프와 트리 그래프

패턴 그래프의 정의

Chen(2022)은 패턴 그래프를 “비단조 누락을 모델링하고, 전체 데이터 분포 (p(\mathbf{x},\mathbf{r}))를 비모수적으로 식별할 수 있게 하는 방향성 그래프”라고 정의했습니다. 패턴 그래프는 모든 누락 패턴을 정점(vertex)으로, 패턴 간 정보 흐름을 간선(edge)으로 표현합니다.

패턴들에 부분 순서(partial order) 를 부여합니다. 두 패턴 (s, r \in \mathcal{R})에 대해
[ s \succ r \quad \Longleftrightarrow \quad {j : r_j = 1} \subseteq {j : s_j = 1} ] 즉, (s)가 (r)보다 관측 변수가 더 많을 때 (s)가 (r)를 포함한다는 의미입니다. 이 부분 순서를 기반으로 모든 패턴을 연결한 방향성 그래프가 패턴 그래프가 됩니다.

정규 패턴 그래프(regular pattern graph)

  1. 단일 소스 노드: (\mathbf{1}_d = (1,\dots,1)) (모든 변수가 관측된 경우)만이 출발점(source) 입니다.
  2. 정규성(regularity): 그래프에 간선 ((s \to r))가 존재하면 반드시 (s \succ r)이어야 합니다.

이러한 정규성은 패턴이 부모(pattern’s parent)로부터 정보를 빌려와 누락을 모델링한다는 해석을 가능하게 합니다. 부모 집합을 (\text{PA}_\mathcal{T}(r))라 하면, 패턴‑혼합 모델은 다음과 같이 인수분해됩니다.

[ p(\mathbf{x}{\bar r}\mid \mathbf{x}r, \mathbf{R}=r) = \prod{s \in \text{PA}\mathcal{T}(r)} p(\mathbf{x}_{\bar r}\mid \mathbf{x}_r, \mathbf{R}=s) . \tag{P1} ]

동일하게 선택 오즈(selection odds) 모델

[ \frac{P(\mathbf{R}=r\mid\mathbf{X})}{P(\mathbf{R}=s\mid\mathbf{X})} = \frac{P(\mathbf{R}=r\mid\mathbf{X}_r)}{P(\mathbf{R}=s\mid\mathbf{X}r)}, \qquad s\in\text{PA}\mathcal{T}(r) . \tag{P2} ]

Chen(2022)은 (P1)과 (P2)가 극소 양성성(positivity) 조건 하에서 동등함을 증명했으며, 이를 통해 두 정의를 자유롭게 전환할 수 있음을 보였습니다.


트리 그래프(tree graph)

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키