kNN 잡음 특성 탐지와 복구의 한계 분석
초록
본 연구는 자율 실험실에서 발생할 수 있는 입력 파라미터 잡음을 k‑Nearest Neighbors(kNN) 기반 워크플로우로 자동 탐지하고 복구하는 방법을 제시한다. 데이터 규모, 잡음 강도·유형, 특성값 분포가 탐지·복구 성공률에 미치는 영향을 체계적으로 실험했으며, 대규모·고강도 잡음에서는 높은 검출률과 복구 정확도를, 저강도·소규모 데이터에서는 낮은 성능을 보였다. 연속적·분산된 특성은 복구가 용이하고, 이산형·좁은 분포는 어려움을 나타냈다.
상세 분석
이 논문은 자율 실험실(SDL)에서 발생하는 측정 잡음이 머신러닝 모델에 미치는 악영향을 최소화하기 위해, kNN 기반의 잡음 탐지·복구 파이프라인을 설계하고 그 한계를 정량적으로 규명한다. 먼저 두 개의 대표 데이터셋(DFT 계산 데이터와 3D 프린팅 실험 데이터)을 선정하고, 특성 선택 과정을 통해 46개와 12개의 핵심 특성을 추출하였다. 잡음은 Gaussian, Poisson, Drift 세 종류로 시뮬레이션했으며, 각각의 강도는 신호대잡음비(SNR)를 조절해 0.5~5 범위로 변형하였다.
워크플로우는 (1) kNN 하이퍼파라미터 튜닝(거리 metric=L1, k=5, leaf size=30)으로 베이스라인 모델을 구축하고, 각 특성을 타깃으로 삼아 나머지 N‑1 특성으로 복구값을 예측한다. (2) 복구 오차(Δbase)와 잡음이 섞인 테스트셋에서의 복구 오차(Δnoise)를 비교하기 위해 Earth Mover’s Distance(EMD)를 적용, 가장 큰 EMD를 보이는 특성을 ‘잡음 특성’으로 식별한다. (3) Δnoise가 Δbase의 95번째 퍼센타일을 초과하는 샘플을 ‘복구 가능 샘플’로 정의하고, 해당 샘플에 대해 kNN 기반 보정값을 계산한다.
실험 결과, 훈련 데이터 규모가 10 k 이하로 감소하면 R²가 0.8 이하로 급락하고, 이는 이웃 후보가 희소해져 거리 기반 추정이 불안정해지기 때문이다. 고강도 잡음(σ≈0.2~0.5)에서는 탐지 정확도가 90 % 이상이며, 복구 정확도(R²)도 0.85 수준을 유지한다. 반면 저강도 잡음(σ≈0.05)에서는 탐지율이 45 %에 머물고, 복구 R²는 0.6 이하로 떨어진다. 특성별로는 연속형·분산이 큰 특성(예: MagpieData Minimum GSbandgap)에서 복구 R²가 0.9에 달했지만, 이산형·범위가 좁은 특성(예: 카테고리형 공정 파라미터)에서는 0.4 수준에 그쳤다. 또한, 평균 상관계수가 높은 특성일수록 kNN 복구 정확도가 높아, 특성 간 상관구조가 kNN 성능에 결정적임을 확인했다.
이와 같이 본 논문은 kNN이 데이터 양과 잡음 강도에 민감함을 실증하고, 특성 분포와 상관구조가 복구 가능성을 좌우한다는 중요한 인사이트를 제공한다. 결과는 모델에 종속되지 않는 ‘모델-아그노스틱’ 프레임워크로서, 실험실 자동화 환경에서 데이터 정제 단계에 직접 적용 가능함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기