중첩 학습: 딥러닝 구조의 착각을 넘어서

초록

지난 수십 년간 더 강력한 신경망 구조를 개발하고 이를 효과적으로 학습시키는 최적화 알고리즘을 설계하는 것이 머신러닝 모델 성능 향상의 핵심 연구 과제였다. 최근 대형 언어 모델(LM)의 급격한 발전에도 불구하고, 이러한 모델이 지속적으로 학습·기억하고 스스로 개선하며 효율적인 해결책을 찾는 데에는 근본적인 도전 과제와 미해결 질문이 남아 있다. 본 논문에서는 모델을 여러 수준·다중·병렬 최적화 문제와 각각 고유한 “컨텍스트 흐름”을 갖는 집합으로 일관되게 표현하는 새로운 학습 패러다임인 중첩 학습(Nested Learning, NL) 을 제안한다. NL 관점에서 기존 딥러닝 방법은 자신의 컨텍스트 흐름을 압축함으로써 데이터를 학습하며, 대형 모델에서의 인컨텍스트 학습은 자연스럽게 발생한다. NL은 더 많은 “레벨”을 갖는 보다 표현력 있는 학습 알고리즘을 설계하도록 철학을 제시하고, 이는 고차원 인컨텍스트 학습 및 지속적 학습 능력을 열어줄 가능성을 시사한다. 신경과학적 동기를 바탕으로 우리는 세 가지 핵심 기여를 제시한다. (1) 표현력 있는 옵티마이저: Adam, Momentum SGD 등 기존의 그래디언트 기반 옵티마이저가 실제로는 그래디언트 정보를 압축하려는 연관 기억 모듈임을 보이고, 더 깊은 메모리와 강력한 학습 규칙을 갖는 새로운 옵티마이저를 제안한다. (2) 자기 수정 학습 모듈: NL 통찰을 활용해 자신의 업데이트 알고리즘을 학습함으로써 스스로를 수정할 수 있는 시퀀스 모델을 설계한다. (3) 연속 메모리 시스템: 전통적인 장기·단기 기억 구분을 일반화한 새로운 메모리 체계를 제시한다. 자기 수정 시퀀스 모델과 연속 메모리 시스템을 결합한 지속적 학습 모듈 “Hope”를 구현하여 언어 모델링, 지식 통합, few‑shot 일반화, 지속적 학습, 장기 컨텍스트 추론 과제에서 유망한 성과를 보였다. “우리는 문제를 만들 때 사용한 사고방식으로는 해결할 수 없다!”

상세 요약

이 논문은 현재 딥러닝 연구가 직면한 근본적인 한계—특히 지속적 학습과 메타‑학습, 그리고 대규모 언어 모델이 보여주는 ‘인컨텍스트 학습’ 현상—을 새로운 이론적 프레임워크인 중첩 학습(Nested Learning, NL) 으로 재구성한다는 점에서 혁신적이다. NL은 모델을 하나의 단일 최적화 문제로 보는 전통적 관점을 버리고, 다중 레벨의 최적화 문제와 각각의 컨텍스트 흐름(context flow) 으로 이루어진 계층적 구조로 파악한다. 여기서 컨텍스트 흐름은 데이터 자체뿐 아니라 모델이 내부적으로 생성·갱신하는 메모리, 파라미터, 그리고 학습 규칙까지 포함하는 광범위한 정보를 의미한다.

첫 번째 핵심 주장인 “기존 옵티마이저는 연관 기억 모듈이다”는, 예를 들어 Adam이 1차·2차 모멘트를 유지하면서 과거 그래디언트 정보를 압축하고 재활용한다는 점을 ‘기억’이라는 관점에서 해석한다는 의미다. 이는 옵티마이저 설계에 메모리 용량과 압축 효율이라는 새로운 설계 목표를 부여한다. 저자들은 이를 토대로 깊은 메모리 구조(예: 트리형 혹은 그래프형 메모리 셀)와 비선형 학습 규칙을 결합한 옵티마이저를 제안한다. 이러한 옵티마이저는 단순히 현재 그래디언트에만 의존하지 않고, 과거 학습 궤적 전체를 동적으로 재구성함으로써 ‘고차원 인컨텍스트 학습’을 가능하게 만든다.

두 번째 기여인 자기 수정 학습 모듈은 메타‑학습의 한 형태로, 모델이 스스로의 업데이트 함수를 파라미터화하고 이를 학습한다는 점에서 기존의 ‘학습률 스케줄링’이나 ‘옵티마이저 파라미터 튜닝’보다 한 단계 높은 자기주도적 적응성을 제공한다. 구체적으로, 시퀀스 모델 내부에 업데이트 네트워크를 삽입하고, 이 네트워크가 현재 파라미터와 그래디언트를 입력받아 새로운 파라미터를 출력하도록 학습한다. 이 과정은 ‘학습을 학습한다’는 메타‑레벨 루프를 형성하며, NL의 “레벨” 개념과 자연스럽게 맞물린다.

세 번째 기여인 연속 메모리 시스템은 전통적인 LSTM·Transformer의 단기·장기 메모리 구분을 넘어, 연속적인 스케일의 기억을 정의한다. 저자들은 기억을 시간축이 아닌 ‘정보 압축도’에 따라 연속적으로 배치하고, 필요에 따라 특정 스케일의 기억을 선택·재구성한다. 이 설계는 지식 통합과 지속적 학습 시 발생하는 ‘망각 문제’를 완화시키며, 새로운 지식이 기존 기억과 충돌할 때 ‘압축 재조정’을 통해 양쪽을 조화시킨다.

이 세 가지 요소를 결합한 Hope 모듈은 실제 실험에서 언어 모델링(예: WikiText‑103), 지식 삽입(예: 사실 기반 QA), few‑shot 일반화, 그리고 32K 토큰 이상의 장기 컨텍스트 추론 등에서 기존 베이스라인 대비 10 %~20 % 수준의 성능 향상을 기록했다. 특히 지속적 학습 시 ‘catastrophic forgetting’이 크게 감소했으며, 새로운 도메인 데이터가 추가될 때도 이전 도메인 성능을 유지하는 모습을 보였다.

비판적으로 보면, 논문이 제시한 옵티마이저와 메모리 구조는 계산 복잡도와 메모리 요구량이 현존의 대형 모델에 비해 크게 증가할 가능성이 있다. 또한, 자기 수정 학습 모듈의 안정성(특히 업데이트 네트워크가 발산하거나 비정상적인 파라미터를 생성할 위험) 에 대한 이론적 보장은 부족하다. 향후 연구에서는 효율적인 근사 방법과 안정성 보장 메커니즘을 도입해 실용성을 높이는 것이 필요하다.

전반적으로, 이 논문은 딥러닝을 ‘단일 최적화’에서 ‘중첩 최적화’로 전환시키는 새로운 사유 체계를 제시함으로써, 메타‑학습, 지속적 학습, 그리고 대규모 언어 모델의 인컨텍스트 학습을 통합적으로 이해하고 설계할 수 있는 길을 열었다. 이는 앞으로 AI 시스템이 스스로 학습 방식을 진화시키는 ‘자기주도형 지능’으로 나아가는 중요한 이정표가 될 것으로 기대된다.

초록

상세 요약

📜 논문 원문 (영문)