연속학습으로 극복하는 단일언어 엔드투엔드 음성인식의 재학습 문제
초록
본 논문은 단일언어 End‑to‑End ASR 모델을 새로운 방언·주제 등 4개의 연속 과업에 적용하면서 발생하는 재학습 시 성능 저하(재앙적 망각, CF)를 완화하는 다양한 연속학습(CL) 기법들을 구현·비교한다. 하이브리드 CTC‑Transformer 기반 모델에 정규화 기반(EWC, MAS, CSQN, LWF)과 재현 기반(ER, ER(λ), BER, A‑GEM, KD) 방법을 적용했으며, 메모리 용량을 전체 데이터의 0.6 % 수준으로 제한한 실험에서 가장 좋은 성능을 보인 KD는 FT(하한)와 CJT(상한) 사이의 격차를 40 % 이상 줄였다.
상세 분석
본 연구는 연속학습(Continual Learning, CL)이 아직 음성인식, 특히 End‑to‑End( E2E ) 구조에 충분히 적용되지 않은 점을 출발점으로 삼았다. 저자들은 기존 이미지 분야에서 검증된 정규화 기반과 재현 기반 CL 기법을 E2E ASR에 그대로 옮겨 적용 가능성을 탐색하였다. 모델은 Hybrid CTC‑Transformer 구조이며, CTC 손실과 디코더 교차 엔트로피 손실을 0.3:0.7 비율로 결합한다. 파라미터 중요도 추정 방식으로는 Fisher 정보 기반(EWC)와 출력 변화 기반(MAS), 그리고 quasi‑Newton 근사(CSQN, CSQN‑BT)를 사용한다. 정규화 손실에 대한 가중치 λ는 기존 방법과 달리 이전 과업의 검증 데이터를 사용하지 않고, 새로운 과업의 초기 TER와 정규화 적용 후 TER 변화를 비교해 자동으로 조정한다. 이는 실제 서비스 환경에서 과거 데이터에 접근할 수 없는 상황을 현실적으로 반영한다는 점에서 의미가 크다.
재현 기반에서는 메모리 500 utterance(전체 데이터 대비 0.6 %)를 유지하며, ER, ER(λ), BER, A‑GEM, Knowledge Distillation(KD) 등을 시험한다. 특히 KD는 기존 LWF와 동일한 교사‑학생 손실을 사용하지만, 교사 모델의 출력을 메모리 샘플에 대해 계산한다는 차별점을 가진다. 실험 결과, 정규화 기반 방법들은 파라미터 중요도가 과업 간에 크게 겹치면서 새로운 과업을 학습하기 어렵다는 한계에 부딪혔다. EWC와 MAS는 오히려 FT보다 성능이 떨어졌으며, CSQN 계열도 미세하게 개선했지만 FT를 넘어서는 데는 실패했다. 반면 LWF는 새로운 과업 학습에서는 우수했지만, 메모리 없이 진행되므로 CF 감소 효과가 제한적이었다.
재현 기반 중 KD는 메모리 활용을 통해 파라미터를 완전히 고정하지 않으면서도 중요한 과거 지식을 유지했으며, FT 대비 BWT(Backward Transfer)를 70 % 이상 감소시켰다. 또한 COV(Coverage) 지표에서 40 % 이상을 회복, 전체 과업을 공동 학습(JT) 수준에 근접했다. ER(λ)와 BER도 메모리 가중치를 조정함으로써 일정 수준의 개선을 보였지만, 메모리 과잉 적합(over‑fit) 문제가 나타났다. A‑GEM은 새로운 과업 학습에서는 비교적 좋은 성능을 보였지만, 기억 손실이 심해 COV가 22 %에 머물렀다.
추가 실험에서는 메모리 크기를 고정(500 utterance)하고 과업 수가 늘어날 때 성능 변화를 확인했으며, KD와 ER(λ)는 메모리 고정에도 큰 성능 저하 없이 안정적인 CL을 수행했다. 저장 요구량 측면에서는 KD와 ER(λ)가 1.0~3.2 모델 크기(≈105 MB)만을 추가로 사용해 효율성을 입증했다. 전체적으로 본 논문은 “정규화 기반만으로는 유사 과업 간 파라미터 충돌을 해결하기 어렵다”는 결론을 내리고, “작은 메모리를 활용한 재현 기반, 특히 Knowledge Distillation이 실용적인 CL 솔루션”임을 실증하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기