CkNNLSH 순차적 반사실 추론을 위한 근접 이웃 알고리즘
초록
본 논문은 고차원·불규칙적인 장기 관찰 데이터를 대상으로, 잠재적 히스토리를 변분 오토인코더와 대형 언어 모델(LLM)로 압축한 뒤, 지역적 k‑최근접 이웃 매칭과 로컬리티‑센시티브 해싱(LSH) 기반 근사 검색을 결합한 CkNN‑LSH 프레임워크를 제안한다. 이 방법은 이중 강건(DR) 보정으로 편향을 최소화하고, 근사 잠재 충분통계 가정 하에 일관성과 2차 강건성을 이론적으로 보장한다. 실제 롱코비드(Long COVID) 코호트(13,511명)에서 기존 베이스라인보다 회복 궤적의 이질성을 더 정확히 포착하고 정책 가치 추정에서 우수한 성능을 보였다.
상세 분석
CkNN‑LSH는 순차적 인과 추론에서 가장 큰 난제인 “고차원 히스토리와 시간에 따라 변하는 교란 변수” 문제를 세 단계로 해결한다. 첫 번째 단계는 LLM(예: GPT‑계열)으로 원시 전자건강 기록과 웨어러블 시계열을 의미론적으로 인코딩한 뒤, 변분 오토인코더(VAE) Φ ϕ가 이를 저차원 가우시안 잠재 변수 Z 로 압축한다. 여기서 핵심은 ELBO에 (i) 재구성 손실, (ii) 결과 예측 손실, (iii) KL 정규화, (iv) 행동‑잠재 변수 간 상호정보 억제(I(Z;A))를 동시에 최적화함으로써 Z 가 “근사 충분통계” 역할을 하게 만든다. 즉, Z 가 치료 할당 A 와 결과 Y 양쪽을 조건부 독립하게 만들어, 이후 비모수적 매칭이 통계적 타당성을 유지하도록 설계되었다.
두 번째 단계는 압축된 Z 공간에서 LSH 기반 근사 최근접 이웃 검색을 수행한다. p‑안정 분포를 이용한 해시 함수 h 는 고차원 Z 벡터를 여러 버킷에 매핑하고, 동일 버킷 내에서 실제 유클리드 거리를 계산해 k 개의 가장 가까운 이웃 Nₖ(i,t,a) 를 추출한다. 이 과정은 O(N T · ρ log N T) 시간 복잡도를 가지며, ρ < 1 은 원하는 근사 비율에 따라 조정된다. 따라서 수십만 개의 시계열 샘플이라도 실시간 쿼리가 가능하다.
세 번째 단계는 이중 강건(DR) 보정이다. 이웃 집합 Nₖ 에 대해 로컬 회귀 b_Q(Z,a) 와 propensity ĥe(a|Z) 를 각각 학습하고,
\
댓글 및 학술 토론
Loading comments...
의견 남기기