시계열 합성곱 신경망을 활용한 비선형 시스템 식별 혁신
본 논문은 최근 딥러닝 분야에서 주목받는 Temporal Convolutional Network(TCN)를 전통적인 비선형 시스템 식별 모델인 Volterra 급수와 블록‑지향 모델과 연결시킨다. TCN의 구조적 특성(인과적, 팽창형 확장, 잔차 블록 등)을 수학적으로 해석하고, 실험적으로 Silverbox와 F‑16 진동 데이터셋에 적용해 기존 NARX‑MLP와 LSTM 대비 성능을 평가한다.
저자: Carl Andersson, Ant^onio H. Ribeiro, Koen Tiels
본 논문은 딥러닝의 최신 발전이 비선형 시스템 식별에 어떻게 적용될 수 있는지를 탐구한다. 먼저, 최근 연구에서 합성곱 신경망(CNN)이 순환 신경망(RNN)과 동등하거나 우수한 시퀀스 모델링 성능을 보인다는 사실을 소개하고, 이를 기반으로 Temporal Convolutional Network(TCN)를 시스템 식별에 적용한다. TCN는 인과적( causal ) 합성곱을 사용하며, dilation factor를 통해 메모리 길이를 기하급수적으로 늘릴 수 있다. 논문은 TCN를 비선형 ARX 모델의 다층 확장으로 정의하고, 각 레이어 l 을 g^{(l)} 함수(선형 변환 W^{(l)} + bias 와 비선형 활성화 σ)로 구성한다. dilation d_l = 1이면 전통적인 NARX와 동일하고, d_l>1이면 한 레이어가 더 넓은 과거 정보를 한 번에 포착한다. 이러한 구조는 Volterra 급수와 직접적인 연관성을 가진다. Volterra 급수는 입력 지연의 다항식 전개이며, 무한 차수(D→∞)일 때 TDNN과 동등함이 알려져 있다. TCN는 TDNN과 구조적으로 동일하지만, zero‑padding과 ReLU 활성화를 사용한다. 따라서 TCN는 무한 차수 Volterra 급수와 동등한 보편적 근사 능력을 가진다.
다음으로 블록‑지향 모델과의 연결을 논한다. Wiener, Hammerstein, 그리고 그 복합 형태인 Wiener‑Hammerstein 모델은 선형 시불변(LTI) 블록과 정적 비선형 블록을 직렬·병렬로 결합한다. TCN의 각 레이어는 “parallel Wiener” 구조로 해석될 수 있는데, 이는 각 레이어가 다변량 비선형 정적 블록(활성화 함수)과 시간 지연(선형 FIR)으로 구성된 서브시스템을 의미한다. 최종 출력 레이어는 여러 병렬 Wiener 서브시스템의 출력을 다시 FIR 필터링해 합산한다. 따라서 TCN는 여러 Wiener 모델을 겹겹이 쌓은 형태이며, 필요에 따라 레이어를 합치면 더 큰 단일 Wiener 모델로 압축할 수 있다.
학습 방법으로는 Adam 옵티마이저(기본 파라미터, 학습률 0.001)를 사용하고, 검증 손실이 10 epoch 연속 개선되지 않으면 학습률을 감소시킨다. 잔차 블록은 스킵 연결(z^{(l+p)} = F(z^{(l)}) + z^{(l)})을 도입해 기울기 소실을 방지하고, 깊은 네트워크에서도 안정적인 학습을 가능하게 한다. 각 블록은 두 개의 선형 변환(배치 정규화·활성화·드롭아웃 포함)으로 구성된다.
실험은 세 가지 사례로 구성된다. 첫 번째는 기존 논문에서 사용된 비선형 2차 시스템(식 5)으로, 다양한 샘플 수(N=500, 8000)와 잡음 수준에서 TCN, NARX‑MLP, LSTM을 비교한다. 결과는 작은 데이터셋에서는 TCN가 가장 낮은 RMSE를 기록했으며, 데이터가 충분히 많을 때는 MLP와 LSTM이 더 좋은 성능을 보였다. 또한, 깊이와 드롭아웃 등 일반적인 딥러닝 기법이 반드시 성능 향상을 보장하지 않으며, 오히려 과도한 정규화가 성능을 저하시킬 수 있음을 확인했다.
두 번째 사례는 Silverbox 데이터셋이다. 이 전자 회로는 질량‑스프링‑댐퍼 시스템을 모사하며, 거의 잡음이 없는 환경에서 다중 주파수 멀티사인 입력을 사용해 학습한다. 테스트는 선형 증가하는 가우시안 잡음 입력으로 진행되며, 데이터의 마지막 1/3에서는 훈련 데이터보다 큰 분산을 보인다(외삽 상황). TCN는 외삽 구간에서도 비교적 안정적인 RMSE를 유지했으며, 전체 테스트 구간에서도 LSTM보다 낮은 오류를 기록했다.
세 번째 사례는 F‑16 전투기 지면 진동 실험 데이터이다. 이 데이터는 다중 입력(진동 구동)과 다중 출력(가속도, 변위 등)으로 구성된 복합 MIMO 시스템이다. TCN는 5개의 합성곱 레이어와 dilation = {1,2,4,8,16}을 사용해 장기 메모리를 확보했으며, 실험 결과 기존 NARX‑MLP와 LSTM 대비 테스트 RMSE가 10~15% 정도 개선되었다. 특히, 높은 주파수 성분과 비선형 상호작용을 효과적으로 포착해 실시간 예측 정확도를 크게 향상시켰다.
전체적으로 논문은 TCN가 Volterra 급수와 parallel Wiener 모델과 수학적으로 동등함을 증명하고, 실제 산업용 데이터에 적용했을 때 경쟁력 있는 성능을 보임을 실증한다. 또한, 딥러닝에서 흔히 사용하는 정규화 기법이 시스템 식별에서는 반드시 유리하지 않을 수 있음을 지적한다. 향후 연구 방향으로는 TCN와 Volterra 커널 추정의 직접적인 연계, MIMO 시스템에 대한 구조적 확장, 그리고 물리적 해석 가능성을 높이는 파라미터 해석 방법 등이 제시된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기