긴 문맥 추론을 위한 게이트형 잠재 메모리 강화 G‑MemLLM
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
G‑MemLLM은 고정된 대형 언어 모델에 훈련 가능한 잠재 메모리 뱅크를 결합하고, GRU‑스타일 게이트를 통해 메모리 슬롯을 선택적으로 업데이트·보존·덮어쓰기한다. HotpotQA와 Zero‑Shot Relation Extraction(ZsRE)에서 GPT‑2와 Llama 3.1‑8B에 적용해 각각 Answer F1 +8.56점, Supporting Fact F1 +6.89점, ZsRE 정확도 +13.3%라는 실질적인 성능 향상을 입증한다.
상세 분석
본 논문은 대형 언어 모델(LLM)의 “컨텍스트 윈도우 한계”와 “멀티홉 추론 시 장기 일관성 유지 어려움”을 해결하기 위해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 잠재 메모리 뱅크(Latent Memory Bank) 를 도입해, 모델의 파라미터는 고정(frozen)하면서도 외부에 별도의 메모리 공간을 두어 정보를 지속적으로 저장·갱신하도록 설계한 점이다. 메모리 뱅크는 고정된 슬롯 수(S)와 차원(Dₘ)으로 구성되며, 각 슬롯은 학습 가능한 벡터이다.
두 번째는 GRU‑스타일 게이트(g) 를 활용한 게이트형 업데이트 로직이다. 입력 토큰이 처리된 후 LLM의 은닉 상태를 메모리 인코더에 전달해 K와 V를 생성하고, 메모리 슬롯을 Q로 사용해 교차‑어텐션을 수행한다. 이때 얻어진 M_attended와 기존 메모리 M_old를 다음 식으로 결합한다.
\
댓글 및 학술 토론
Loading comments...
의견 남기기