혼합형 데이터용 비모수 결측값 대체 방법 missForest
초록
본 논문은 연속형·범주형 변수를 동시에 포함하는 데이터셋에 적용 가능한 비모수 결측값 대체 기법인 missForest를 제안한다. 랜덤 포레스트 기반의 반복적 imputation 과정을 통해 변수 간 복잡한 비선형 관계와 상호작용을 보존하며, OOB(Out‑of‑Bag) 오류 추정으로 별도 검증 데이터 없이도 대체 정확도를 평가한다. 다양한 생물학 데이터에 인공 결측을 삽입해 실험한 결과, 기존 방법들보다 높은 정확도와 효율성을 입증하였다.
상세 분석
missForest는 기존 결측값 대체 기법이 연속형과 범주형 변수를 별도로 처리해 변수 간 잠재적 연관성을 무시하는 한계를 극복한다. 핵심 아이디어는 무작위로 선택된 변수들을 타깃으로 삼아, 나머지 관측값을 이용해 랜덤 포레스트(분류 혹은 회귀)를 학습하고, 그 모델을 통해 결측값을 예측하는 반복적 절차이다. 초기 결측값은 변수별 평균(연속형) 혹은 최빈값(범주형)으로 채워진 뒤, 각 변수마다 OOB 예측을 이용해 새로운 추정값을 얻는다. 이 과정을 모든 변수에 대해 순차적으로 수행하고, 전체 데이터셋에 대한 평균 변화량(NRMSE 혹은 PFC)이 사전에 정의된 수렴 기준 이하가 될 때까지 반복한다.
랜덤 포레스트는 다수의 비정규화된 결정트리를 앙상블함으로써 비선형 관계와 고차원 상호작용을 자연스럽게 포착한다. 또한, 트리를 전부 가지치기하지 않은 ‘unpruned’ 상태로 학습하기 때문에 각 트리의 예측이 독립적이며, OOB 샘플을 통한 오류 추정이 가능해 별도의 검증 세트가 필요 없다. 이는 missForest가 내재적으로 다중 대체(multiple imputation)와 유사한 효과를 제공한다는 점에서 통계적 견고성을 높인다.
실험에서는 10%30% 수준의 인공 결측을 삽입한 12개의 생물학 데이터셋(유전체, 단백질 발현, 임상 변수 등)을 대상으로, KNN, MICE, missMDA, SoftImpute 등 기존 대표적 방법들과 비교하였다. 성능 평가는 연속형 변수에 대해 NRMSE, 범주형 변수에 대해 PFC(분류 오류 비율)로 측정했으며, missForest는 대부분의 경우 평균 1530% 정도의 오류 감소를 보였다. 특히 변수 간 복잡한 비선형 상호작용이 존재하는 데이터(예: 유전자 발현과 임상 특성 결합)에서 그 우위가 두드러졌다.
계산 효율성 측면에서도 missForest는 병렬화가 용이한 랜덤 포레스트 구현을 활용해 고차원(수천 개 변수) 데이터에서도 수십 초 내에 수렴한다. OOB 기반 오류 추정은 실제 결측률이 높은 상황에서도 실제 오류와 높은 상관관계를 유지했으며, 이는 실무에서 대체 품질을 사전 검증하는 데 유용하다.
한계점으로는 매우 높은 결측률(>50%)에서는 초기값에 대한 의존도가 커져 수렴 속도가 느려질 수 있으며, 범주형 변수 수준이 매우 많을 경우(수백 수준) 메모리 사용량이 급증한다는 점을 언급한다. 향후 연구에서는 변수 선택 전처리와 메모리 효율적인 트리 구조를 결합해 이러한 문제를 보완할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기