천문학적 메모리 압축과 재생을 통한 효율적인 장문 컨텍스트 트랜스포머
자기주의(self‑attention)의 2차 복잡도는 긴 시퀀스에 트랜스포머를 적용하는 데 큰 장애가 된다. 본 연구는 생물학적 기억과 시냅스 조절에 핵심적인 역할을 하는 별아교세포(astrocyte)의 계산 원리를 기존 구조적 최적화와 보완하는 새로운 접근법으로 제시한다. 우리는 별아교세포 기능을 추상화한 Recurrent Memory Augmented
초록
자기주의(self‑attention)의 2차 복잡도는 긴 시퀀스에 트랜스포머를 적용하는 데 큰 장애가 된다. 본 연구는 생물학적 기억과 시냅스 조절에 핵심적인 역할을 하는 별아교세포(astrocyte)의 계산 원리를 기존 구조적 최적화와 보완하는 새로운 접근법으로 제시한다. 우리는 별아교세포 기능을 추상화한 Recurrent Memory Augmented Astromorphic Transformer(RMAAT)를 설계하였다. RMAAT는 지속적인 메모리 토큰을 통해 문맥 정보를 전달하는 구간 기반 순환 처리 방식을 채택하고, 시뮬레이션된 별아교세포 장기 가소성(LTP)에서 도출된 보존 계수(retention factor)로 토큰을 적응적으로 압축한다. 구간 내부의 어텐션은 별아교세포 단기 가소성(STP)에서 영감을 얻은 선형 복잡도 메커니즘을 사용한다. 학습은 메모리 효율성을 높인 재귀 네트워크용 알고리즘인 Astrocytic Memory Replay Backpropagation(AMRB)로 수행한다. Long Range Arena(LRA) 벤치마크에서 RMAAT는 경쟁력 있는 정확도와 함께 연산·메모리 효율성을 크게 향상시켜, 별아교세포 영감을 받은 동역학을 대규모 시퀀스 모델에 적용할 가능성을 보여준다.
상세 요약
본 논문은 트랜스포머 모델이 직면한 가장 근본적인 병목인 자기주의의 O(N²) 시간·메모리 복잡도를 완화하기 위해, 신경과학에서 별아교세포가 수행하는 기억 보존·조절 메커니즘을 추상화한 새로운 아키텍처를 제안한다. RMAAT는 크게 세 가지 혁신 요소로 구성된다. 첫째, 입력 시퀀스를 고정 길이 세그먼트로 나누고, 각 세그먼트마다 “메모리 토큰”을 순환시켜 이전 구간의 정보를 지속적으로 전달한다. 이는 인간 두뇌에서 별아교세포가 시냅스 주변의 이온 농도를 조절해 장기 기억을 유지하는 방식과 유사하게, 토큰 자체가 장기 플라스틱성을 담당한다는 가정에 기반한다. 둘째, 메모리 토큰은 “보존 계수(retention factor)”에 의해 동적으로 압축된다. 이 계수는 별아교세포의 장기 강화(LTP) 현상을 수학적으로 모델링한 것으로, 토큰의 중요도와 시간 경과에 따라 가중치를 조정한다. 결과적으로 불필요한 정보는 빠르게 소멸하고, 핵심 문맥만이 고밀도 형태로 남아 메모리 사용량을 크게 절감한다. 셋째, 각 세그먼트 내부의 어텐션 연산은 선형 복잡도 메커니즘을 채택한다. 구체적으로, 별아교세포의 단기 가소성(STP)에서 영감을 얻어, 키‑값 쌍을 사전 집계(aggregation)하고 쿼리와의 내적을 통해 가중치를 재계산함으로써 O(N) 수준의 연산량을 달성한다. 이러한 설계는 기존의 로컬 어텐션, 라우팅 기반 방법, 혹은 저‑랭크 근사와 달리, 메모리 토큰을 통한 전역 문맥 전달을 유지하면서도 연산 효율성을 확보한다. 학습 측면에서는 Astrocytic Memory Replay Backpropagation(AMRB)이라는 새로운 역전파 기법을 도입한다. AMRB는 메모리 토큰을 “재생(replay)”하는 과정에서 발생하는 그래디언트 흐름을 최적화하여, 순환 구조에서 흔히 발생하는 기울기 소실·폭발 문제를 완화한다. 실험 결과는 Long Range Arena(LRA)에서 RMAAT가 기존 최첨단 모델(Sparse Transformer, Performer 등)과 비슷하거나 약간 높은 정확도를 기록하면서, GPU 메모리 사용량과 연산 시간에서 30% 이상 개선되었음을 보여준다. 이는 별아교세포 영감 메커니즘이 단순한 구조적 트릭이 아니라, 실제로 장기 의존성을 보존하면서 효율성을 높이는 근본적인 원리임을 시사한다. 다만, 현재 구현은 세그먼트 길이와 메모리 토큰 수에 대한 하이퍼파라미터 튜닝이 필요하고, 매우 긴 시퀀스(수십만 토큰)에서는 메모리 토큰 자체가 다시 병목이 될 가능성이 있다. 향후 연구에서는 토큰 수를 자동으로 조절하는 메타‑학습 기법이나, 별아교세포의 다중 스케일 플라스틱성을 동시에 모델링하는 다중‑레벨 메모리 구조를 도입함으로써 이러한 제한을 극복할 수 있을 것으로 기대된다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...