엔트로피 회귀로 잡음·이상치에 강한 비선형 시스템 식별
** 본 논문은 정보이론 기반의 엔트로피 회귀(Entropic Regression, ER) 방법을 제안한다. ER은 조건부 상호정보량을 모델 선택 기준으로 사용해, 잡음과 이상치가 섞인 고차원 비선형 동역학 시스템의 구조와 파라미터를 정확히 복원한다. 기존의 최소제곱·라쏘·압축감지 기반 희소 회귀와 달리, 데이터의 ‘전형성(typicality)’에 초점을 맞춰 이상치를 자연스럽게 억제한다. 로렌츠, 쿠라모토‑시바시키, 이중우물 포텐셜 등 혼…
저자: Abd AlRahman R. AlMomani, Jie Sun, Erik Bollt
**
본 논문은 비선형 시스템 식별(SID) 분야에서 기존의 희소 회귀 기반 방법들이 잡음과 이상치에 취약하다는 문제점을 지적하고, 이를 극복하기 위한 새로운 프레임워크인 **엔트로피 회귀(Entropic Regression, ER)** 를 제안한다.
먼저, 저자들은 비선형 동역학을 일반적인 미분 방정식 형태 \(\dot{z}=F(z)\) 로 기술하고, 이를 다항·푸리에 등 다양한 기저 함수들의 선형 결합으로 전개한다. 관측값에 잡음이 포함될 경우, 실제 시스템 출력과 기저 함수들의 선형 결합 사이에 효과적인 잡음 \(\xi(t)\) 가 존재하게 되며, 이는 전통적인 최소제곱, 라쏘, 압축감지 등 메트릭 기반 손실 함수를 최소화하는 방법들에 큰 영향을 미친다. 특히 이상치는 손실 함수에 비례적으로 큰 기여를 하여 ‘과희소’ 모델을 초래하고, 실제 동역학을 왜곡한다.
이를 해결하기 위해 ER은 **조건부 상호정보량(I)** 을 모델 선택 기준으로 채택한다. 핵심 아이디어는 “현재 모델에 포함되지 않은 모든 후보 기저 함수와 잔차 사이의 상호정보가 0에 가깝다면, 현재 모델이 충분히 데이터를 설명한다”는 것이다. 이때 상호정보는 데이터의 전형성(typicality)을 반영하므로, 발생 확률이 낮은 이상치는 자연스럽게 무시된다.
ER 알고리즘은 두 단계로 구성된다.
1. **Forward Entropic Regression**
- 모든 후보 기저 함수 \(\phi_k\) 에 대해 현재 모델 출력 \(z\)와의 상호정보 \(I(\phi_k;f)\) 를 계산한다.
- 가장 큰 상호정보를 가진 함수를 선택하고, 최소제곱(또는 다른 회귀)으로 해당 계수를 추정한다.
- 모델 출력을 업데이트하고, 잔차와 아직 선택되지 않은 함수들 간의 상호정보가 사전 정의된 임계값 이하가 될 때까지 반복한다.
2. **Backward Entropic Regression**
- 현재 모델에 포함된 함수들을 하나씩 제거하면서, 제거 후 잔차와 남은 함수들 간의 상호정보 증가량을 평가한다.
- 정보 손실이 최소인 함수를 제거하고, 파라미터를 재추정한다.
- 이를 통해 과도한 복잡성을 억제하고, 최적의 ‘최소 충분(minimally sufficient)’ 모델을 얻는다.
상호정보량 추정은 고차원에서도 안정적인 **k‑nearest‑neighbor 기반 Kozachenko–Leonenko 추정기** 를 사용한다. 이 방법은 샘플 수가 제한된 상황에서도 편향을 최소화하며, 병렬 연산이 가능해 실시간 적용이 가능하다.
실험에서는 세 가지 대표적인 비선형·혼돈 시스템을 대상으로 ER의 성능을 검증한다.
- **Lorenz 시스템**: 3차원, 2차 다항 기저.
- **Kuramoto‑Sivashinsky 방정식**: 공간‑시간 파동, 고차원 푸리에·다항 혼합 기저.
- **Double‑Well Potential**: 1차·2차 기저를 갖는 비선형 포텐셜.
각 실험에서 10 %~30 % 수준의 가우시안 잡음과 전체 표본의 5 %~10 %에 해당하는 큰 이상치를 인위적으로 삽입하였다. 결과는 다음과 같다.
- **구조 복원 정확도**: ER은 95 % 이상, 기존 SINDy·Lasso·OMP 등은 70 %~85 % 수준.
- **파라미터 평균 제곱 오차(MSE)**: ER은 0.02 이하(정규화), 다른 방법은 0.05~0.12.
- **이상치 저항성**: 이상치 비율이 10 %까지 증가해도 ER은 구조 복원률 90 % 이상 유지, 반면 기존 방법은 급격히 성능 저하.
계산 복잡도는 후보 기저 수 \(K\)와 샘플 수 \(N\)에 대해 \(O(K·N·\log N)\) 이며, k‑NN 기반 상호정보 추정이 병렬화 가능하므로 대규모 데이터에도 적용 가능하다.
논문은 또한 현재 한계와 향후 연구 방향을 제시한다. 현재는 연속형 데이터에 특화된 상호정보 추정에 의존하고 있어, 이산형·혼합형 데이터에 대한 확장이 필요하다. 초고차원(수천 차원) 시스템에서는 후보 기저의 사전 선택이 여전히 병목이므로, 차원 축소 또는 딥러닝 기반 자동 기저 생성과의 결합이 제안된다.
결론적으로, 엔트로피 회귀는 **정보‑기반 모델 선택**이라는 새로운 패러다임을 도입함으로써, 잡음·이상치가 심한 현실 데이터에서도 비선형 동역학을 정확히 복원하고, 기존 희소 회귀 방법이 직면한 과적합·과희소 문제를 효과적으로 해결한다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기