성장하라, 덮어쓰지 말라: 망각 없는 파인튜닝
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 사전학습된 트랜스포머 모델의 파인튜닝 시 발생하는 재앙적 망각을 방지하기 위해, MLP 서브모듈을 복제·확장하고 다운프로젝션 가중치를 스케일링하는 함수 보존 확장 기법을 제안한다. 확장된 모델은 초기에는 원본과 동일한 출력을 내며, 새로운 파라미터만 학습함으로써 기존 지식은 유지하고 새로운 과제에서는 기존 파인튜닝 수준의 성능을 달성한다. 또한, 일부 레이어만 선택적으로 확장해도 전체 확장과 동등한 성능을 얻을 수 있어 파라미터 효율성을 크게 향상시킨다.
상세 분석
이 논문은 “catastrophic forgetting”(재앙적 망각) 문제를 함수‑보존(function‑preserving) 방식으로 해결한다는 점에서 기존의 정규화 기반 방법이나 완전 파라미터 동결 방식과 차별화된다. 핵심 아이디어는 트랜스포머의 MLP 서브모듈, 특히 up‑projection(입력→중간 차원)과 down‑projection(중간 차원→출력) 가중치를 복제하고, 복제된 up‑projection을 k번(논문에서는 k=2) 수평으로 연결한 뒤, down‑projection을 k번 수직으로 쌓아 각각 1/k 스케일링한다는 단순하지만 수학적으로 정확한 절차이다.
수식적으로 원본 MLP는 Y·W^(2) 로 표현되는데, 확장 후에는
댓글 및 학술 토론
Loading comments...
의견 남기기