탭ular 데이터 결측값을 위한 트랜스포머 기반 NAIM 모델
초록
본 논문은 결측값을 별도 보간 없이 직접 학습에 활용할 수 있는 트랜스포머 기반 모델 NAIM을 제안한다. 특성별 임베딩과 결측값을 완전히 차단하는 마스크드 셀프‑어텐션, 그리고 샘플을 매 epoch마다 무작위로 마스킹하는 정규화 기법을 결합해, 5개의 공개 탭ular 데이터셋에서 기존 6개 머신러닝·5개 딥러닝 모델(각각 3가지 임퓨테이션 방식 적용)보다 우수한 성능을 입증한다.
상세 분석
NAIM은 탭ular 데이터의 이질적인 특성(범주형·연속형)과 결측값 존재를 동시에 고려한 최초의 트랜스포머 설계라 할 수 있다. 먼저 각 특성마다 별도 임베딩 테이블을 두어, 범주형은 두 단계(특성‑전용·공유) 임베딩을, 연속형은 ‘존재’와 ‘결측’ 두 토큰을 갖는 lookup table을 사용한다. 결측 토큰은 학습되지 않는 영벡터(패딩 인덱스)로 설정해, 마스크드 셀프‑어텐션 단계에서 해당 토큰이 키·밸류로 활용되지 않도록 완전 차단한다. 이는 기존 트랜스포머가 패딩을 무시하는 메커니즘을 결측값 처리에 그대로 적용한 혁신적 아이디어다.
또한 제안된 정규화 기법은 매 epoch마다 입력 샘플의 일부 특성을 무작위 마스크함으로써, 모델이 특정 특성 조합에 과도하게 의존하는 현상을 방지하고, 실제 결측 상황에 대한 일반화 능력을 강화한다. 이는 Dropout과 유사하지만, 특성 차원에서의 마스킹이라는 점에서 차별화된다.
실험에서는 5개의 이진·다중 클래스 분류 데이터셋을 사용해, NAIM이 평균 2~4%p(percentage points) 정도의 정확도 향상을 보였으며, 특히 결측 비율이 30% 이상인 경우 기존 모델 대비 성능 격차가 크게 확대된다. 비교 대상에는 XGBoost, LightGBM, CatBoost 등 MIA를 지원하는 트리 기반 모델과, TabNet, TabTransformer, FT‑Transformer 등 최신 딥러닝 모델이 포함됐으며, 각 모델은 평균값, MICE, KNN 등 3가지 전통적 임퓨테이션 방법과 결합돼 평가되었다.
한계점으로는 현재 NAIM이 주로 분류 태스크에 초점을 맞추었으며, 회귀·시계열·다중 라벨 등 다른 유형의 탭ular 작업에 대한 검증이 부족하다. 또한 결측 패턴이 완전 무작위가 아닌 경우(예: MAR, MNAR) 성능 저하 가능성이 제기된다. 향후 연구에서는 결측 메커니즘을 명시적으로 모델에 통합하거나, 사전학습(pre‑training) 단계에서 결측 복구를 목표로 하는 자기지도 학습을 결합하는 방안을 모색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기