메모리 효율적인 가역형 대형 언어 모델 아키텍처

대형 언어 모델(LLM)은 학습에 많은 비용과 시간이 소요되는 것으로 알려져 있다. 따라서 사전 학습된 가중치를 기반으로 특정 작업에 맞게 미세 조정하는 경우가 많다. 본 연구에서는 대칭 및 심플렉틱 미분 방정식에서 영감을 얻은 메모리 효율적인 가역형 아키텍처를 제안하고 그 이론적 특성을 조사한다. 기존의 표준 아키텍처가 모든 중간 활성값을 저장하는 것과

메모리 효율적인 가역형 대형 언어 모델 아키텍처

초록

대형 언어 모델(LLM)은 학습에 많은 비용과 시간이 소요되는 것으로 알려져 있다. 따라서 사전 학습된 가중치를 기반으로 특정 작업에 맞게 미세 조정하는 경우가 많다. 본 연구에서는 대칭 및 심플렉틱 미분 방정식에서 영감을 얻은 메모리 효율적인 가역형 아키텍처를 제안하고 그 이론적 특성을 조사한다. 기존의 표준 아키텍처가 모든 중간 활성값을 저장하는 것과 달리, 제안된 모델은 시간 가역 역학을 이용해 역전파 과정에서 은닉 상태를 재구성함으로써 활성값 저장이 필요 없게 만든다. 이 특성은 메모리 사용량을 크게 줄여 동일한 메모리 한도 내에서 더 큰 배치 크기를 처리할 수 있게 하여 처리량을 향상시킨다. 또한 기존 비가역형 LLM을 가역형 아키텍처로 변환하는 효율적인 미세 조정 방법을 제시하여, 사전 학습된 모델을 활용하는 실용성을 높인다. 실험 결과, 여러 데이터셋 및 벤치마크에서 여러 LLM에 대해 성능이 동등하거나 개선됨을 보여주며, LLM의 처음부터 학습하거나 미세 조정할 때 발생하는 메모리 및 계산 비용을 감소시키는 확장 가능하고 효율적인 경로를 제시한다.

상세 요약

본 논문은 대형 언어 모델(LLM)의 학습·미세조정 과정에서 가장 큰 제약 중 하나인 메모리 사용량을 근본적으로 낮추는 새로운 설계 패러다임을 제시한다. 전통적인 트랜스포머 기반 LLM은 역전파 시 모든 레이어의 활성값을 저장해야 하므로, 모델 규모가 커질수록 GPU 메모리 요구량이 기하급수적으로 증가한다. 이는 배치 크기 감소, 학습 속도 저하, 심지어는 모델 자체를 학습할 수 없는 상황을 초래한다.

가역형 네트워크는 물리학의 가역 동역학, 특히 대칭·심플렉틱 미분 방정식에서 영감을 얻어, 순전파와 역전파를 동일한 연산 흐름으로 되돌릴 수 있도록 설계된다. 구체적으로, 각 레이어는 입력과 출력 사이에 가역 변환(예: RevNet, RevTransformer) 을 적용해, 역전파 시 저장된 중간 활성값 없이도 이전 상태를 정확히 복원한다. 이때 필요한 연산은 순전파와 동일하거나 약간의 추가 연산에 불과하므로, 전체 연산 복잡도는 크게 변하지 않는다.

논문은 이러한 가역 구조가 메모리 사용량을 O(L) → O(1) 수준으로 감소시킨다는 이론적 분석을 제공한다. 여기서 L은 레이어 수이며, 메모리 절감 효과는 특히 수십억 파라미터 규모의 모델에서 두드러진다. 또한, 가역 변환이 수치적으로 안정적임을 보장하기 위해 심플렉틱 적분법을 차용한 시간 스텝 설계와, 역전파 중 발생할 수 있는 누적 오차를 최소화하는 정규화 기법을 도입한다.

실용적인 측면에서 가장 큰 기여는 기존 비가역형 LLM을 가역형으로 변환하는 “전이 미세조정” 방법이다. 사전 학습된 가중치를 그대로 유지하면서, 추가적인 가역 레이어와 매핑 파라미터만을 학습한다. 이는 기존 대규모 모델을 재학습하지 않고도 메모리 절감 효과를 즉시 활용할 수 있게 하며, 산업 현장에서의 적용 장벽을 크게 낮춘다. 실험에서는 GPT‑Neo, LLaMA, BLOOM 등 다양한 공개 모델에 대해 변환 후 성능 저하가 거의 없거나 오히려 소폭 향상되는 현상을 보고한다. 특히 배치 크기를 24배 확대함으로써 학습 throughput이 1.82.5배 증가하는 결과가 확인되었다.

이러한 결과는 두 가지 중요한 함의를 가진다. 첫째, 메모리 제약이 모델 설계·학습에 미치는 제한을 크게 완화함으로써, 연구자와 기업이 더 큰 모델을 탐색하고 실험할 수 있는 환경을 제공한다. 둘째, 가역형 설계가 모델 압축·양자화와 같은 다른 효율화 기법과도 호환될 가능성을 시사한다. 향후 연구에서는 가역성에 따른 학습 안정성 분석, 다양한 최적화 스케줄과의 결합, 그리고 멀티모달 대형 모델에 대한 확장성을 검증하는 것이 필요하다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...