뇌 영감을 받은 장문 이해를 위한 PaceLLM: 지속 활성화와 피질 전문가 클러스터링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PaceLLM은 두 가지 뇌‑모방 메커니즘을 도입한다. (1) 활성화 메모리 뱅크(AMB)를 통해 프리프런탈 피질의 지속 발화를 모사해 FFN 중간 활성값을 저장·재활용함으로써 장문에서 정보 소멸을 방지하고, (2) 균형 잡힌 K‑means 클러스터링으로 FFN 가중치를 의미론적 모듈(피질 전문가)로 재배열해 토큰 간 의미 단편화를 완화한다. 훈련 없이 Qwen‑2‑7B와 Llama‑2‑7B에 적용했을 때 LongBench 멀티‑문서 QA에서 6 %·∞‑Bench 다중 선택·대화에서 각각 12.5 %·17.5 % 향상하고, Needle‑In‑A‑Haystack 테스트에서 200K 토큰까지 컨텍스트를 처리한다.

상세 분석

PaceLLM은 기존 장문 처리 연구가 주로 어텐션 확장, 입력 압축, 외부 메모리 삽입에 초점을 맞춘 것과 달리, 트랜스포머 내부의 피드‑포워드 네트워크(FFN) 자체의 구조적 한계를 파고든다. 첫 번째 핵심인 Persistent Activity(PA) 메커니즘은 활성화 레벨 메모리 뱅크(Activation Memory Bank, AMB)를 도입한다. AMB는 각 FFN 레이어마다 키‑값 쌍(K, V)과 사용 빈도(u)를 저장하고, 현재 토큰의 중간 활성화와 코사인 유사도를 계산해 상위 k개의 유사한 과거 활성화를 조회한다. 유사도 임계값(θ_low, θ_high)에 따라 세 가지 업데이트 전략을 적용한다. 높은 유사도에서는 메모리를 그대로 두고 사용 빈도만 증가시키며, 중간 유사도에서는 현재 활성화를 평균화해 기존 메모리를 보강하고, 낮은 유사도에서는 가장 사용 빈도가 낮은 슬롯을 교체한다(LRU 기반). 이 과정은 뇌의 작업 기억에서 보이는 ‘반복 등장 시 지속적 재활성화’ 현상을 수학적으로 구현한 것으로, 토큰이 멀리 떨어진 위치에 다시 등장해도 관련 FFN 활성화가 빠르게 재활용돼 정보 소멸을 크게 완화한다.

두 번째 핵심인 Cortical Expert(CE) 클러스터링은 FFN의 가중치 행렬을 의미론적 전문가 그룹으로 재구성한다. 먼저 W₁(d_ff × d_model) 행을 정규화하고, K‑meansConstrained를 이용해 K개의 균등 클러스터를 만든다. 각 클러스터는 하나의 ‘피질 전문가’에 해당한다. 이후 행 순서를 재배열해 W₁의 클러스터별 블록을 연속적으로 배치하고, W₂(d_model × d_ff) 열도 동일한 순서로 재배열한다. 이렇게 재구성된 FFN은 같은 전문가 내에서 입력 패턴이 집중적으로 처리되며, 전문가 간에는 명확한 경계가 형성돼 의미 단편화가 감소한다. 중요한 점은 이 재배열이 사전 훈련된 가중치를 그대로 사용하므로 추가 파라미터나 재학습이 필요 없다는 것이다.

실험에서는 Qwen‑2‑7B‑Instruct와 Llama‑2‑7B‑chat을 베이스 모델로, 훈련‑프리 설정에서 CE, PA, 그리고 두 메커니즘을 동시에 적용한 버전을 비교했다. LongBench의 SQA, MQA, Summ., FSL, Cod. 다섯 베치마크에서 CE와 PA를 각각 단독 적용해도 소폭 향상이 있었으며, 결합했을 때 평균 0.5~1.0 % 포인트(절대값) 상승을 기록했다. 특히 Multi‑document QA에서는 6 % 절대 향상이 확인되었다. ∞‑Bench의 En.Dialogue와 En.Multi‑Choice에서는 각각 12.5 %와 17.5 %의 큰 폭 상승을 보였으며, 이는 장문 대화와 선택형 문제에서 의미적 일관성이 크게 개선됐음을 의미한다. Needle‑In‑A‑Haystack 테스트에서는 기존 Activation Beacon(128K 토큰) 대비 200K 토큰까지 정확히 검색·응답이 가능했으며, 메모리 사용량은 AMB의 동적 압축 덕분에 1.3× 정도만 증가했다.

추가 분석에서는 AMB의 메모리 슬롯 수(M)와 top‑k, bottom‑k′ 하이퍼파라미터가 성능에 미치는 영향을 탐색했다. M=512, top‑k=8, k′=4 조합이 대부분의 설정에서 최적의 트레이드오프를 제공했으며, 메모리 크기를 크게 늘려도 성능 향상은 포화되는 경향을 보였다. CE 클러스터 수 K는 모델 규모에 비례해 64~128 정도가 적절했으며, 과도한 클러스터링은 전문가 간 경계가 얇아져 오히려 성능 저하를 일으켰다.

전반적으로 PaceLLM은 뇌의 작업 기억과 피질 모듈화를 수학적으로 모델링함으로써, 기존 외부 메모리나 어텐션 확장 방식과는 독립적인 장점—특히 내부 파라미터 재구성과 활성화 재활용—을 제공한다. 이는 장문 이해뿐 아니라 모델 해석성에도 기여한다. 전문가별 가중치 재배열은 특정 클러스터가 담당하는 의미 영역을 시각화하거나, AMB의 키‑값을 추적해 어떤 토큰이 장문 내에서 지속적으로 영향을 미치는지 분석할 수 있게 만든다. 향후 연구에서는 CE와 PA를 다른 장문 최적화 기법(예: 슬라이딩 윈도우 어텐션, 효율적인 KV 캐시)과 결합하거나, 다중 모달 입력에 대한 지속 활성화 메커니즘을 확장하는 방향이 기대된다.

뇌 영감을 받은 장문 이해를 위한 PaceLLM: 지속 활성화와 피질 전문가 클러스터링

초록

상세 분석

댓글 및 학술 토론

의견 남기기