사전학습 모델 모듈 교체 안정성을 위한 결정적 연속 교체 기법

초록

본 논문은 사전학습된 모델의 핵심 모듈을 효율적인 대체 연산으로 교체할 때 발생하는 불안정성을 해결하기 위해, 교사와 학생 출력의 가중 평균을 시간에 따라 결정적으로 조정하는 Deterministic Continuous Replacement(DCR) 방식을 제안한다. DCR은 확률적 게이트가 야기하는 그래디언트 분산을 없애고, 단일 시드 실험에서 기존 확률적 교체 및 지식증류 방법보다 빠른 수렴과 높은 정렬도를 보였다.

상세 요약

이 연구는 사전학습된 대형 트랜스포머 모델에서 self‑attention 모듈을 Quadratic 형태에서 효율적인 Linear 혹은 Performer와 같은 대체 연산으로 교체할 때, 기존의 “cold‑start” 재초기화가 백본을 급격히 불안정하게 만든다는 핵심 문제를 명확히 규정한다. 저자들은 이 현상을 “gate‑induced variance”라 명명하고, 이는 스테이플스톤 방식이나 확률적 스위칭을 적용할 경우, 교체 시점에 학습 신호가 급격히 변동해 파라미터가 발산하거나 수렴이 지연되는 원인이라고 분석한다. 이를 해결하기 위해 제안된 DCR은 두 네트워크(teacher와 student)의 출력에 대해 시간‑함수 α(t)를 적용해 deterministic하게 가중 평균을 취한다. α(t)는 초기에는 teacher 쪽에 높은 비중을 두고, 학습이 진행됨에 따라 점진적으로 student 쪽으로 전이하도록 annealing 스케줄을 갖는다. 핵심 이론적 기여는 α(t)의 미분 가능성으로 인해 역전파 과정에서 추가적인 stochastic noise가 전혀 발생하지 않으며, 따라서 gradient variance가 완전히 제거된다는 점이다. 실험 설계는 동일한 시드와 동일한 데이터 파이프라인을 사용해 stochastic gating, 기존 knowledge distillation, 그리고 DCR을 비교한다. 결과는 DCR이 초기 수렴 속도가 1.8배 빠르고, 최종 validation loss가 3~5% 낮으며, attention map의 cosine similarity가 0.92 이상으로 가장 높은 정렬도를 보였음을 보여준다. 또한, DCR은 메모리 사용량과 연산량 면에서 기존 방법과 동일하거나 약간 개선된 효율성을 유지한다. 한계점으로는 현재 단일 시드 실험에 국한되어 있어 통계적 유의성을 확보하기 위한 다중 시드 검증이 필요하고, 복잡한 비선형 교체(예: convolution ↔ transformer)에는 아직 적용되지 않았다는 점을 언급한다. 전반적으로 DCR은 모듈 교체 과정에서 발생하는 불안정성을 근본적으로 해결하는 deterministic 접근법으로, 향후 이종 연산자 스와핑, 모델 압축, 그리고 지속적 학습 시나리오에 널리 활용될 가능성을 시사한다.

초록

상세 요약

📜 논문 원문 (영문)