예산에 맞춘 탄력적 스펙트럼 상태공간 모델
초록
ES‑SSM은 한 번의 전체 용량 학습만으로도 스펙트럼 채널을 자유롭게 잘라내어 다양한 연산 예산에 맞춰 실시간 추론이 가능한 새로운 상태공간 모델이다. Hankel 스펙트럼 필터링과 입력‑적응 게이트, 그리고 무작위 예산 드롭아웃을 결합해 저차원 채널에 핵심 정보를 집중시키고, 고차원 채널은 정교화 역할만 수행하도록 설계하였다. 텍스트·논리·검색·비전·오디오 등 장기 시퀀스 벤치마크에서 단일 모델이 여러 규모의 트랜스포머·SSM 대비 경쟁력을 보이며, 예산‑성능 곡선이 부드럽고 안정적인 것을 확인하였다.
상세 분석
본 논문은 대규모 기반 모델이 고정된 연산 용량으로 학습되는 전통적 패러다임을 탈피하고, 하나의 풀‑스펙트럼 모델을 다양한 하드웨어 제약에 맞게 ‘잘라내어’ 사용할 수 있는 Elastic Spectral State Space Model(ES‑SSM)을 제안한다. 핵심 아이디어는 Hankel 행렬의 고유값이 자연스럽게 내림차순을 이루는 스펙트럼 기반 SSM을 사용함으로써, 낮은 인덱스 채널이 정보량이 풍부하도록 학습을 유도한다는 점이다. 이를 위해 두 가지 메커니즘을 도입한다. 첫째, 입력‑적응 게이트는 현재 입력 표현을 기반으로 경량 MLP를 통해 각 스펙트럼 채널에 대한 가중치 αₖ(t)를 실시간으로 계산한다. 이때 예산 K에 따라 K번째 이하 채널만 활성화하고, softmax 전 로그를 RMS 정규화(√K‖s₁:K‖₂)하여 예산 간 온도 차이를 보정한다. 둘째, ‘예산 드롭아웃’이라 부르는 무작위 예산 샘플링을 학습 단계에 적용한다. 매 업데이트마다 K_train ≤ K_max을 무작위로 선택하고, 선택된 채널 집합만을 사용해 순전파·역전파를 수행함으로써 낮은 인덱스 채널에 핵심 정보를 집중시키고, 높은 인덱스 채널은 점진적으로 정교화 역할만 수행하도록 만든다. 이렇게 하면 모델 파라미터는 모든 예산에 공유되지만, 활성 채널만이 해당 단계에서 업데이트되므로, 트렁케이션 시 성능 급락을 방지할 수 있다.
스펙트럼 채널의 순서성을 활용한 설계는 기존 Spectral SSM이 단일 고정 해상도에서만 평가되던 한계를 극복한다. 논문은 K_max을 32로 설정하고, 다양한 데이터셋(긴 텍스트, 논리 추론, 대규모 검색, 이미지 시퀀스, 오디오 스트림)에서 실험한다. 결과는 (1) 동일 파라미터 규모의 최신 트랜스포머·SSM 대비 경쟁력 있는 정확도, (2) 예산‑성능 곡선이 매끄럽고 급격한 성능 붕괴 없이 연속적으로 감소, (3) 특정 ‘스위트 스팟’ 예산 구간에서 거의 최적 성능에 근접함을 보여준다. 또한, 모델 크기와 연산량을 별도 재학습 없이 조정할 수 있어 배포 비용을 크게 절감한다는 실용적 장점도 강조한다.
이러한 설계는 (i) 스펙트럼 기반 SSM이 장기 의존성을 효율적으로 캡처한다는 점, (ii) 입력‑적응 게이트가 시점별 동적 채널 선택을 가능하게 하여 연산 효율성을 극대화한다는 점, (iii) 예산 드롭아웃이 학습 과정에서 자연스럽게 ‘채널 우선순위’를 형성한다는 점에서 의미가 크다. 특히, 채널 순서를 고정하고 낮은 인덱스에 정보 집중을 강제함으로써, 트렁케이션 후에도 모델이 안정적인 출력 품질을 유지한다는 점은 향후 다양한 엣지 디바이스와 클라우드 환경에서의 동적 모델 배포에 중요한 전술적 기여라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기