상호 정보 기반 스펙트럼 변수 선택
초록
스펙트로미터 데이터는 수백~수천 개의 파장 변수로 구성되지만, 모든 변수를 그대로 모델에 투입하면 과적합 위험이 커진다. 본 논문은 모델 종류에 구애받지 않는 비선형 특성을 보존하는 변수 선택 지표로서 상호 정보를 활용한다. 상호 정보는 각 입력 변수와 목표 출력 사이의 정보량을 직접 측정하므로, 변수와 출력 간의 비선형 의존성을 그대로 반영한다. 실험 결과, 기존의 주성분 회귀(PCR)·편차 최소화(PLS) 등 투영 기반 방법과 비교했을 때 예측 정확도는 유지하면서, 원본 변수 자체를 선택함으로써 해석 가능성을 크게 높였다.
상세 분석
본 연구는 스펙트럼 데이터의 차원 축소 문제를 ‘변수 선택’이라는 관점에서 접근한다. 전통적인 투영 기반 방법(PCR, PLS 등)은 입력 변수들의 선형 결합을 새로운 축으로 변환해 차원을 감소시키지만, 결과적으로 원본 파장 변수와의 직접적인 연관성을 해석하기 어렵다. 반면, 상호 정보(Mutual Information, MI)는 두 확률 변수 사이의 정보 공유량을 정량화하는 비파라메트릭 지표로, 선형·비선형 관계 모두를 포괄한다. 논문에서는 다음과 같은 절차를 제시한다.
- 데이터 전처리: 스펙트럼 신호는 잡음 제거와 정규화를 거쳐 동일한 스케일로 맞춘다.
- 확률 밀도 추정: 연속형 변수인 파장 강도와 목표 변수(예: 농도) 사이의 MI를 계산하기 위해 커널 밀도 추정(KDE) 혹은 k‑최근접 이웃(k‑NN) 기반 엔트로피 추정 방법을 적용한다. 이는 데이터 분포에 대한 가정 없이 정확한 MI 값을 제공한다.
- 변수 순위 매김: 각 파장 변수에 대해 MI 값을 산출하고, 높은 MI를 보이는 변수들을 상위 후보군으로 선정한다. 여기서 ‘조건부 MI’ 혹은 ‘점진적 MI’ 기법을 도입해 이미 선택된 변수와의 중복 정보를 보정한다. 즉, 새로운 변수를 추가할 때 기존 변수와의 상호 정보가 크게 겹치면 선택을 보류한다.
- 정지 기준: 모델 성능(예: 교차 검증 RMSEP) 향상이 일정 임계값 이하로 감소하거나, 선택 변수 수가 사전에 정의한 최대치에 도달하면 선택 과정을 종료한다.
실험에서는 두 개의 실제 스펙트럼 데이터셋(가시광선‑근적외선 및 적외선)을 사용해, MI 기반 선택이 PLS와 PCR에 비해 동일하거나 약간 낮은 예측 오차를 보이면서도 선택된 변수 수가 10~15% 수준으로 크게 감소함을 확인했다. 특히, 선택된 파장들은 화학적 의미(예: 특정 흡수 피크)와 직접 연결돼, 모델 해석과 실험 설계에 유용한 정보를 제공한다.
또한, 논문은 MI 계산의 계산 복잡도와 샘플 수에 따른 안정성을 논의한다. k‑NN 기반 엔트로피 추정은 O(N·k·logN) 수준의 복잡도를 가지며, 샘플 수가 충분히 클 경우 추정 편향이 감소한다. 반면, KDE는 밴드폭 선택에 민감해 과소/과대 추정 위험이 있다. 저자는 실험적으로 k=5~10을 권장하고, 차원 축소 전 변수 간 상관관계를 사전 검토해 중복 변수를 미리 제거할 것을 제안한다.
결론적으로, MI 기반 변수 선택은 (1) 모델 비선형성을 보존, (2) 원본 변수 자체를 선택해 해석 가능성 강화, (3) 과적합 위험을 감소시키는 세 가지 장점을 제공한다. 향후 연구에서는 다변량 MI(다중 변수와 출력 사이의 공동 정보)와 딥러닝 기반 예측 모델과의 연계가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기