Locas: 모델을 활용한 지역 지원 파라메트릭 메모리 초기화
초록
Locas는 트랜스포머의 Feed‑Forward Network(FFN)를 메모리 슬롯으로 재해석하고, 테스트 시점에 새로운 키‑값 쌍을 효율적으로 삽입하기 위한 두 가지 변형(MLP와 GLU)과 원리 기반 초기화 방식을 제안한다. 활성화·그래디언트 재활용 혹은 기존 FFN 파라미터 복제를 통해 메모리를 빠르게 수렴시키고, 파라미터·연산 효율성을 크게 향상시킨다. PG‑19 전체 책 기억 및 장기 대화 QA 실험에서 0.02 % 수준의 추가 파라미터만으로도 과거 컨텍스트를 보존하고, 기존 지식 손실을 최소화한다.
상세 분석
Locas 논문은 현대 트랜스포머의 FFN을 “소프트 룩업 테이블”로 해석함으로써, 모델 내부에 내장된 파라메트릭 메모리의 용량을 명시적으로 확장할 수 있는 틀을 제공한다. 기존의 테스트‑타임 학습 방법은 전체 파라미터를 업데이트하거나 무작위 초기화된 작은 모듈을 추가하는 방식이었지만, 이는 연산 비용과 수렴 속도에서 비효율적이었다. Locas는 두 가지 변형을 제시한다. 첫 번째인 Locas‑MLP는 전통적인 2‑layer MLP 구조를 사용해 키와 밸류 행렬 K, V를 별도로 학습한다. 여기서는 입력 활성화 A와 로그우도에 대한 그래디언트 G를 재활용해 kₘ←Normalize(A)와 vₘ←ε·GlobalNormalize(G) 로 초기화한다. 이 초기화는 각 타임스텝과 그래디언트 업데이트 단계에서 최적성을 보장한다는 이론적 근거가 있다. 두 번째인 Locas‑GLU는 최신 LLM이 채택한 GLU‑FFN 구조를 그대로 차용한다. 여기서는 백본 모델의 기존 FFN 파라미터를 기반으로 활성화 중요도 α를 계산하고, 가장 활성화가 큰 r개의 차원을 선택해 K와 G를 복제한다. V는 0으로 초기화해 초기 단계에서 메모리의 출력이 백본에 영향을 주지 않게 만든 뒤, 점진적인 그래디언트 업데이트를 통해 정보를 저장한다. 이러한 “활성화‑가이드 파라미터 클로닝”은 모델이 이미 학습한 특성 공간의 주성분을 그대로 활용하므로, 새로운 메모리 슬롯이 기존 지식과 충돌하지 않으며, 로컬 서포트와 일반화 사이의 균형을 자연스럽게 맞춘다.
또한 논문은 메모리 성장에 따른 압축 기법으로 Non‑Linear SVD(NL‑SVD)를 제안한다. 이는 기존 선형 SVD를 비선형 두‑layer 구조에 일반화한 것으로, 압축 후에도 주요 활성화 행동을 보존한다. 실험에서는 NL‑SVD가 단순 BP 업데이트에 비해 성능 이득이 크지 않으며, 계산 비용이 더 높아 실제 적용에는 제한적이라고 결론짓는다.
학습 안정성을 위해 가중치 노름 클리핑과 스케일링 파라미터 τ를 도입한다. 클리핑은 각 행벡터의 L2 노름이 1을 초과할 경우만 제한해 메모리의 출력 기여를 고정 반경 구 안에 머물게 하며, τ는 백본 FFN의 평균 행 노름을 메모리 폭 r 로 나눈 값으로 설정해 메모리와 백본 간 기여 비율을 자동 조정한다. 이는 KL‑다이버전스 제약을 암묵적으로 구현하면서도 계산량을 최소화한다.
실험 결과는 두 가지 베이스라인(전체 컨텍스트를 그대로 사용하는 Full‑Attention, 컨텍스트를 잘라내는 Truncation)과 기존 효율적 적응 기법인 TempLoRA와 비교했을 때, 파라미터 증가율 0.02 % 수준에서도 PG‑19 전체 책을 기억하고, LoCoMo 장기 대화 QA에서 높은 정확도를 유지한다. 또한 MMLU 평가를 통해 전체 책을 기억한 뒤에도 기존 모델의 일반 지식 손실이 미미함을 확인한다. 전체적으로 Locas는 테스트‑타임 메모리 확장의 이론적 근거와 실용적 구현을 동시에 제공하며, 파라미터·연산 효율성, 빠른 수렴, 그리고 기존 지식 보존이라는 세 축을 모두 만족시키는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기