데이터 결측 보정 기법 비교와 영향 분석
초록
본 논문은 산전 설문 조사 데이터에 대해 자동연관 신경망(NN), 신경‑퍼지(NF) 시스템, 그리고 이들에 핫덱을 결합한 하이브리드 방식을 비교한다. NN이 NF보다 평균 5.8% 높은 정확도를 보였으며, 하이브리드 방법은 정확도는 15.9% 향상되지만 계산 효율성은 50% 감소한다. 또한, 결측값 보정 후 주성분 분석(PCA)에서 변수 간 관계가 변형되고, 전체 표준편차가 평균 36.7% 감소해 결과 해석에 위험을 초래함을 확인하였다.
상세 분석
이 연구는 결측 데이터 처리에서 전통적인 통계적 방법과 인공지능 기반 방법의 성능 차이를 정량적으로 평가한다. 자동연관 신경망(Auto‑Associative NN)은 입력 데이터를 자체적으로 재구성하도록 학습함으로써 결측값을 추정한다. 신경‑퍼지(NF) 시스템은 퍼지 규칙 기반의 추론과 신경망 학습을 결합해 비선형 관계를 포착한다. 두 방법에 핫덱(Hot‑Deck) 보정을 추가한 하이브리드 모델은 실제 관측값 중 유사한 사례를 찾아 대체하는 방식으로, 데이터의 분포를 보존하려는 장점을 갖는다. 실험은 8개 범주로 구성된 산전 설문 데이터에 대해 수행되었으며, 동일한 데이터셋을 주성분 분석(PCA) 전처리 후에도 재평가하였다. 결과는 NN이 NF보다 평균 5.8% 높은 예측 정확도를 기록했으며, 이는 NN이 고차원 비선형 패턴을 더 효과적으로 학습함을 시사한다. 하이브리드 모델은 정확도 면에서 평균 15.9% 향상을 보였지만, 계산 시간과 메모리 사용량이 약 50% 증가해 실시간 혹은 대규모 적용에 제약이 있다. 중요한 발견은 결측값 보정 후 데이터의 전반적인 분산이 크게 감소했다는 점이다. 표준편차가 평균 36.7% 낮아졌으며, 이는 PCA에서 변수 간 상관관계가 왜곡되어 원본 데이터의 구조적 해석이 오도될 위험을 내포한다. 따라서 높은 보정 정확도만으로는 충분하지 않으며, 보정 후 데이터의 통계적 특성을 추가 검증해야 함을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기