극소 메모리로 기억을 지키는 ASR 연속학습
초록
본 논문은 메모리 사용량을 최소화하면서도 ASR 모델의 연속학습에서 발생하는 망각을 억제하는 새로운 방법을 제안한다. 두 단계로 구성된 SVR(Singular Value‑based Rehearsal) 기법은 먼저 새로운 작업에 대해 일반적인 파인튜닝을 수행하고, 이후 선형층 가중치 변화에 SVD를 적용해 각 특이값에 대한 게이팅 벡터만을 학습한다. 이 과정은 극히 적은 파라미터만 업데이트하므로 작은 리허설 메모리(단일 발화)에서도 효과적으로 작동한다. 네 개의 벤치마크 실험에서 기존 최첨단 방법들을 능가함을 보였다.
상세 분석
본 연구는 연속학습(Continual Learning, CL) 환경에서 자동음성인식(ASR) 모델이 새로운 작업을 학습할 때 발생하는 재앙적 망각(catastrophic forgetting)을 최소화하기 위해 메모리 효율적인 리허설 기반 방법을 설계하였다. 핵심 아이디어는 두 단계 파이프라인에 있다. 첫 번째 단계에서는 기존 파라미터 θ_{t‑1}를 초기값으로 새로운 작업 D_{train}^t에 대해 전통적인 파인튜닝을 수행해 업데이트된 파라미터 \tilde{θ}t를 얻는다. 이때 발생하는 가중치 변화 ΔW_t = \tilde{W}t – W{t‑1}는 선형층에 국한하여 SVD(특이값 분해)로 분해된다: ΔW_t = U Σ V^T = Σ_i s_i u_i v_i^T. 각 rank‑one 성분 s_i u_i v_i^T는 새로운 작업에 대한 학습 기여와 이전 작업에 대한 방해 정도가 다를 수 있다. 이를 제어하기 위해 논문은 학습 가능한 게이팅 벡터 α∈ℝ^k를 도입하고, σ(α_i) (시그모이드)로 각 특이값을 스케일링한다. 최종 업데이트는 W{t‑1} + U diag(σ(α)⊙s) V^T 형태이며, 여기서 오직 α만이 학습 대상이 된다. 이렇게 파라미터 수를 각 선형층당 k개(보통 수백 이하)로 제한함으로써 메모리와 연산 비용을 크게 절감한다.
두 번째 단계의 학습 목표는 α를 리허설 메모리 M(이전 작업의 소수 샘플)과 새로운 작업 데이터에 동시에 적용해 손실 L_{st2}=L_{CE}+½(t‑1)(L_{CE}+L_{KD})를 최소화하는 것이다. 여기서 L_{KD}는 이전 모델 θ_{t‑1}의 출력 분포를 유지하도록 하는 지식 증류 손실이다. α를 0에 가깝게 초기화함으로써 초기 모델이 이전 작업의 저손실 영역에 머물게 하고, 학습 과정에서 메모리 샘플을 통해 필요한 특이값만 활성화한다. 또한, 비선형층·바이어스·컨볼루션 파라미터는 \frac{\tilde{p}t + p{t‑1}}{2} 로 평균화한 뒤 고정한다. 이러한 설계는 파라미터 업데이트가 제한된 상황에서도 과적합을 방지하고, 메모리 크기가 극소(단일 발화)일 때도 안정적인 성능을 보장한다.
실험에서는 두 개의 단일언어(마이크로폰 및 억양 변동)와 두 개의 다언어(Whisper 기반 파운데이션 모델 및 태스크‑특정 어댑터) 시나리오를 사용했다. 메모리 크기를 1~5 발화까지 축소했음에도 불구하고, 제안 방법은 기존 리허설 기반 방법(예: ER, GEM)과 정규화 기반 방법(EWC, LwF)보다 월등히 낮은 망각률과 높은 최종 WER 개선을 기록했다. 특히, 특이값 게이팅 벡터 α의 분포를 분석한 결과, 대부분의 성분이 0 또는 1에 가까워 “전부 억제” 혹은 “전부 수용” 형태의 이진적 선택이 이루어짐을 확인했다. 이는 모델이 중요한 업데이트와 방해가 되는 업데이트를 명확히 구분한다는 증거이며, 메모리 제한 상황에서도 효과적인 파라미터 재구성이 가능함을 시사한다. 마지막으로, k값(특이값 수)와 메모리 크기에 대한 민감도 분석을 통해 k가 충분히 크면(예: 0.5·min(d_o,d_i)) 성능이 포화되고, 메모리 크기가 1 발화 이하일 때도 α 학습이 안정적으로 수렴함을 보여준다.
요약하면, 이 논문은 SVD 기반 특이값 게이팅을 통해 파라미터 업데이트를 정밀 제어하고, 극소 메모리에서도 효과적인 리허설 학습을 구현함으로써 ASR 연속학습 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기