곱셈 구조를 활용한 MLP의 표현 분리와 선택적 학습 제거
초록
본 논문은 곱셈 상호작용을 명시적으로 포함한 Bilinear MLP가 내부 표현을 비혼합(non‑mixing) 방식으로 학습한다는 이론을 제시하고, 이를 통해 구조적 분리와 선택적 언러닝이 가능함을 실험적으로 검증한다. 모듈러 연산, 순환 추론, 리군 군 동역학 등 알제브라적 과제에서 기존 ReLU 기반 모델보다 뛰어난 일반화와 언러닝 선택성을 보인다.
상세 분석
논문은 먼저 “구조적 분리(structural disentanglement)”라는 개념을 정의한다. 이는 모델이 학습 과정에서 기능적 구성요소가 서로 직교하는 서브스페이스에 정렬되어, 각각을 독립적으로 조작할 수 있는 상태를 의미한다. 기존의 ReLU 기반 MLP는 입력 공간을 다각형 영역으로 분할하고, 각 영역마다 선형 변환을 적용하는 방식으로 작동한다. 이러한 점별 비선형성은 파라미터가 여러 기능을 동시에 인코딩하게 만들며, 특정 기능을 제거하려 할 때 다른 기능까지 손상되는 ‘catastrophic interference’를 초래한다.
이에 대한 대안으로 저자들은 Bilinear MLP를 도입한다. Bilinear 레이어는 두 개의 선형 투영 W와 V를 각각 입력에 적용한 뒤 원소별 곱을 수행한다(g(x) = (Wx) ⊙ (Vx)). 이 연산은 각 출력 차원 k에 대해 xᵀM_k x 형태의 2차 형태를 만들며, 여기서 M_k = w_k v_kᵀ는 순위‑1 행렬이다. 이러한 구조는 전체 연산자를 Q = Σ_k α_k M_k 로 표현할 수 있고, Q는 대칭 행렬로 가정함으로써 고유값과 고유벡터가 실수이며 직교한다는 중요한 성질을 갖는다.
이론적 분석에서는 Q를 UVᵀ 형태의 행렬 분해로 파라미터화하고, 손실 L = ½‖Q−Q*‖_F²에 대한 gradient flow를 전개한다. 도출된 연동 방정식 ˙Q = −(Q−Q*)VVᵀ − UUᵀ(Q−Q*)는 각 특이값 모드 c_i(t) 가 독립적인 스칼라 ODE ˙c_i = −(a_i² + b_i²)(c_i−s_i) 로 진화함을 보여준다. 여기서 a_i = ‖Uᵀu_i‖, b_i = ‖Vᵀv_i‖이며, u_i, v_i는 Q*의 좌·우 특이벡터이다. 중요한 점은 i≠j인 교차항이 전혀 나타나지 않아, 각 모드가 서로 섞이지 않는 ‘non‑mixing’ 특성을 갖는다. 따라서 특정 모드(예: s_k = 0)를 목표로 할 때 다른 모드에 영향을 주지 않고 학습된 파라미터를 조정할 수 있다. 이는 선택적 언러닝이 구조적으로 가능함을 수학적으로 증명한 것이다.
또한, 대칭 Q는 고유분해 Q = VΛVᵀ 를 가지므로, 반복 적용(Q^k) 은 고유값을 k제곱한 형태로 간단히 계산된다. 이는 순환 추론이나 장기 예측과 같은 장기 외삽(long‑horizon extrapolation) 과제에서 오류가 누적되지 않고 정확히 전파될 수 있음을 의미한다. 반면, ReLU 기반 모델은 각 지역 선형 맵이 서로 다른 기저를 사용하므로 Q^k 를 계산할 때 행렬 곱이 서로 다른 서브스페이스에서 이루어져 오류가 기하급수적으로 증폭된다.
실험에서는 (1) 모듈러 덧셈/곱 연산, (2) 순환 추론(후계 함수 f(a)=a+1 mod p), (3) 리군 군 동역학, (4) 선택적 언러닝 벤치마크 네 가지 도메인에서 Bilinear MLP와 ReLU, Gated Linear Unit(GLU) 기반 모델을 동일 파라미터 수와 동일 옵티마이저 설정으로 비교한다. 모듈러 덧셈에서는 진실 연산자가 circulant 행렬이며 DFT 기반으로 고유모드가 균일하게 분포한다는 점을 이용해 Fourier entropy를 측정한다. Bilinear 모델은 거의 이론적 엔트로피(log p)에 근접한 스펙트럼을 보였으며, ReLU 모델은 높은 엔트로피와 비정형 스펙트럼을 나타냈다. 모듈러 곱에서는 실제 연산이 저랭크 구조를 갖는데, Bilinear 모델은 singular value decay가 급격히 나타나 저차원 핵심 모드만을 학습했음이 확인되었다.
언러닝 실험에서는 특정 클래스(예: 특정 잔여값)만을 제거하도록 목표를 설정하고, 파라미터를 직접 해당 모드의 고유값을 0으로 수렴시키는 “surgical edit” 를 수행한다. Bilinear 모델은 목표 외의 다른 클래스 정확도가 거의 변하지 않은 반면, ReLU 기반 모델은 전체 정확도가 크게 감소했다. 이는 비혼합 특성이 실제 모델 편집 가능성을 크게 향상시킨다는 실증적 증거이다.
마지막으로 장기 외삽 실험에서는 p=97인 순환 그래프에서 1‑step 예측 정확도는 양 모델 모두 99% 이상이었지만, 20‑step 이상 예측에서는 Bilinear 모델이 거의 완벽한 순환을 유지한 반면, ReLU 모델은 확률적 흐트러짐으로 정확도가 급격히 떨어졌다. 이는 고유벡터 기반의 전역적인 연산자 학습이 장기 동역학을 보존한다는 이론과 일치한다.
전체적으로 논문은 “아키텍처 자체가 표현의 구조를 결정한다”는 강력한 주장을 뒷받침한다. 곱셈 상호작용을 명시적으로 포함한 Bilinear MLP는 gradient flow 하에서 기능 모드가 직교된 서브스페이스에 고정되게 만들며, 이는 선택적 언러닝과 장기 일반화라는 두 핵심 요구사항을 동시에 만족시킨다. 향후 연구에서는 이러한 비혼합 특성을 더 복잡한 신경망(예: 트랜스포머)에도 확장하거나, 학습 초기화와 정규화 기법이 비혼합성을 어떻게 강화/약화하는지 탐구할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기