다중차원 다중슬라이스 PHATE를 활용한 RNN 학습 동역학 시각화
초록
본 논문은 RNN의 은닉 상태를 시간, 학습 에포크, 유닛 차원에서 동시에 추적·시각화하는 그래프 기반 임베딩 기법인 Multiway Multislice PHATE(MM‑PHATE)를 제안한다. 합성 벤치마크와 실제 과제에 적용해 은닉 유닛 간 커뮤니티 구조와 훈련 단계별 기하학적 변화를 보존하면서, 정보 확장·압축 단계와 엔트로피 변화를 직관적으로 드러낸다.
상세 분석
MM‑PHATE는 기존 PHATE의 확산 기반 거리 측정과 M‑PHATE의 다중슬라이스 그래프를 결합해, RNN 특유의 시계열 특성을 반영한 4차원 텐서 T(에포크, 시간‑스텝, 유닛, 샘플)를 구축한다. 텐서의 각 원소는 z‑스코어 정규화된 은닉 활성화이며, 이를 기반으로 두 종류의 커널을 정의한다. 첫 번째는 동일 에포크·시간‑스텝 내 유닛 간 유사성을 측정하는 intra‑step 커널로, k‑최근접 이웃 거리 σ를 적응형 밴드폭으로 사용해 지역 밀도에 민감하게 설계한다. 두 번째는 동일 유닛이 서로 다른 에포크·시간‑스텝에 걸쳐 보이는 변화를 포착하는 inter‑step 커널로, 전역 평균 거리 ε를 고정값으로 두어 시간·학습 축을 연결한다. 두 커널을 블록 대각·비대각 형태로 결합해 전체 n × s × m 노드(에포크 n, 시간‑스텝 s, 유닛 m) 간의 가중 그래프 K를 만든 뒤, 대칭화·행 정규화를 수행한다.
이후 PHATE의 확산 과정(다중 단계 전이 확률)을 적용해 거리 행렬을 얻고, 다차원 스케일링(MDS)으로 2‑D 혹은 3‑D 임베딩을 생성한다. 핵심 장점은 (1) 시간‑스텝과 에포크를 동시에 고려해 은닉 상태의 동적 변화를 연속적인 궤적으로 표현한다는 점, (2) 유닛 간 커뮤니티 구조를 보존함으로써 기능적 군집(예: 입력‑특정, 출력‑특정 유닛) 식별이 가능하다는 점, (3) 확산 거리와 엔트로피 기반 메트릭을 통해 “확장(expansion)”과 “압축(compression)” 단계—정보 이론적 관점에서의 IB(Information Bottleneck) 현상—를 정량화한다는 점이다.
실험에서는 (i) Hopf·Pitchfork 등 두 종류의 비선형 bifurcation 모델에 대한 합성 데이터에서, MM‑PHATE가 각 bifurcation 패밀리의 전이 경로를 구분하고, 워프된 상태공간에서도 일관된 순서를 유지함을 확인했다. (ii) 실제 과제(예: 시계열 예측, 언어 모델링)에서는 학습 초기에 은닉 유닛이 서로 멀리 흩어지는 “확장” 단계가 나타나고, 이후 손실 감소와 함께 클러스터가 형성되는 “압축” 단계가 진행된다. 이러한 단계 구분은 (a) 선형 프로브(시간‑별 선형 회귀)와 높은 상관관계를 보이며, (b) 특정 시간‑스텝을 마스킹한 ablation 실험에서 성능 저하가 크게 나타나는 시점을 정확히 예측하고, (c) 은닉 상태와 라벨 간의 상호정보량이 급격히 변하는 시점과 일치한다.
비교 대상으로는 PCA, t‑SNE, UMAP, Isomap, LLE 등 전통적 차원 축소 기법과 M‑PHATE를 포함했으며, MM‑PHATE만이 (1) 시간·학습 축을 동시에 보존하고, (2) 글로벌·로컬 구조를 균형 있게 유지하며, (3) 엔트로피 기반 요약을 제공한다는 점에서 우수함을 입증했다. 또한, 커널 구성 시 k‑최근접 이웃(k=5)와 ε = 전체 평균 거리로 설정했을 때, 결과가 안정적이며 파라미터 민감도 분석에서도 큰 변동이 없었다.
이 논문은 RNN 내부 동역학을 시각화·분석하는 새로운 패러다임을 제시한다. 특히, 학습 과정 중에 발생하는 정보 흐름의 변화를 직관적인 2‑D/3‑D 플롯으로 제공함으로써, 모델 설계·디버깅·해석에 실질적인 도구가 될 수 있다. 향후에는 Transformer와 같은 비순환 구조에도 다차원 슬라이스 개념을 확장하거나, 실시간 모니터링 시스템에 통합해 학습 중 과적합을 조기에 탐지하는 응용이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기