결측 데이터 처리: 신경망과 기대최대화 기법 비교
실시간 처리 응용에서 결측 입력 벡터 요소를 추정하기 위해서는 입력 공간에 내재된 변수 간 상관관계와 같은 특성을 이해하고 있는 시스템이 필요하다. 계산 지능 기법과 최대우도 기법은 이러한 특성을 보유하고 있어 결측 데이터 보간에 중요한 역할을 한다. 본 논문은 결측 데이터 추정 문제에 대한 두 가지 접근법을 비교한다. 첫 번째 기법은 현재 가장 널리 사용
초록
실시간 처리 응용에서 결측 입력 벡터 요소를 추정하기 위해서는 입력 공간에 내재된 변수 간 상관관계와 같은 특성을 이해하고 있는 시스템이 필요하다. 계산 지능 기법과 최대우도 기법은 이러한 특성을 보유하고 있어 결측 데이터 보간에 중요한 역할을 한다. 본 논문은 결측 데이터 추정 문제에 대한 두 가지 접근법을 비교한다. 첫 번째 기법은 현재 가장 널리 사용되는 최대우도와 기대최대화(EM) 방법을 기반으로 한다. 두 번째 기법은 Adbella와 Marwala가 제안한 자동연관 신경망(auto‑associative neural network)과 유전 알고리즘(GA)을 결합한 시스템이다. 세 개의 데이터셋을 이용해 두 기술의 추정 능력을 평가하고, 그 결과를 토대로 결론을 도출한다.
상세 요약
본 연구는 결측값 보정이라는 실용적인 문제에 두 가지 전형적인 방법론을 적용·비교함으로써, 각각의 이론적 기반과 실제 적용 가능성을 심층적으로 탐구한다. 첫 번째 접근법인 기대최대화(EM) 알고리즘은 결측값을 잠재 변수로 간주하고, 관측된 데이터에 대한 최대우도 추정을 반복적으로 수행한다. E‑step에서는 현재 파라미터 추정값을 이용해 결측값의 기대값을 계산하고, M‑step에서는 이 기대값을 고정시킨 채 모델 파라미터를 재추정한다. 이 과정은 로그우도 함수가 수렴할 때까지 반복된다. EM의 장점은 통계적 모델(예: 다변량 정규분포)과 결합했을 때 수학적으로 엄밀한 수렴 보장을 제공한다는 점이다. 그러나 수렴 속도가 느리고, 초기값에 민감하며, 복잡한 비선형 관계를 포착하기 위해서는 모델 구조 자체를 적절히 설계해야 하는 한계가 있다. 특히 실시간 시스템에서는 반복 연산이 시간 제약을 초과할 위험이 있다.
두 번째 접근법은 자동연관 신경망(AANN)과 유전 알고리즘(GA)을 결합한 하이브리드 구조이다. AANN은 입력 자체를 출력으로 복원하도록 학습되며, 은닉층에 압축된 표현을 형성한다. 결측값이 존재하는 경우, 전체 입력 벡터를 완전한 형태로 가정하고, GA를 이용해 결측 위치의 값을 최적화한다. 구체적으로, GA는 후보 해(결측값 후보)를 개체로 두고, 적합도 함수는 AANN이 재구성 오류를 최소화하도록 설계된다. 이 방식은 비선형 상관관계를 자동으로 학습하므로, 복잡한 데이터 구조에서도 높은 보정 정확도를 기대할 수 있다. 또한, GA는 전역 탐색 능력이 있어 지역 최적에 빠질 위험이 상대적으로 낮다. 그러나 신경망 학습 자체가 데이터량과 네트워크 규모에 따라 높은 계산 비용을 요구하고, GA의 세대·인구 수 설정에 따라 실행 시간이 크게 변동한다는 단점이 있다.
논문에서 사용된 세 개의 데이터셋(예: 인공 신호, 의료 기록, 금융 시계열)은 각각 상관구조와 결측 패턴이 다르게 설계되었다. 실험 결과, 선형적·가우시안 특성을 강하게 띠는 데이터에서는 EM이 빠른 수렴과 충분한 정확도를 보였으며, 비선형성이 두드러지는 데이터에서는 AANN‑GA 조합이 평균 제곱오차(MSE) 면에서 우수한 성능을 나타냈다. 또한, 실시간 요구사항을 고려했을 때, EM은 반복 횟수가 제한된 상황에서 안정적인 추정을 제공했으나, 복잡한 비선형 데이터에서는 오차가 급격히 증가했다. 반면, AANN‑GA는 초기 학습 단계가 오래 걸리지만, 한 번 학습된 모델은 결측값 보정 단계에서 비교적 짧은 시간 내에 결과를 도출할 수 있었다.
결론적으로, 두 기법은 상호 보완적인 특성을 지니며, 적용 도메인의 데이터 특성과 시스템 제약에 따라 선택이 달라져야 한다. 실시간, 선형‑가우시안 환경에서는 EM이 효율적이며, 비선형·고차원 환경에서는 AANN‑GA 기반 접근이 더 적합하다고 할 수 있다. 향후 연구에서는 두 방법을 하이브리드하여 초기 EM 추정값을 AANN‑GA의 탐색 범위로 활용하는 방안이나, 딥러닝 기반 자동인코더와 메타휴리스틱 최적화를 결합한 새로운 프레임워크를 제안할 수 있다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...