명시적 정보 전송으로 구현하는 컨텍스트 압축

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 긴 입력을 압축하기 위해, 모델 내부의 self‑attention을 이용하는 기존 방식의 구조적 한계를 지적하고, 고정된 LLM의 은닉 상태 위에서 깊이‑와 폭‑방향으로 명시적 정보 전송을 수행하는 ComprExIT 프레임워크를 제안한다. 깊이‑방향 전송은 레이어별 정보를 토큰 앵커에 선택적으로 집계해 표현 소멸을 방지하고, 폭‑방향 전송은 전역 최적화된 전송 계획을 통해 토큰 앵커를 소수의 압축 슬롯에 조정한다. 6개의 QA 벤치마크에서 기존 최첨단 소프트 압축 방법들을 일관되게 능가하면서 파라미터 오버헤드는 약 1%에 불과하다.

상세 분석

ComprExIT은 기존 “LLM‑as‑compressor” 패러다임이 갖는 두 가지 근본적 문제—(i) 레이어‑별 반복 업데이트 과정에서 발생하는 표현 오버라이트와 디코더와의 분포 불일치, (ii) 압축 토큰 간의 전역적인 용량 할당 부재—를 명시적으로 해결한다. 첫 단계인 깊이‑방향 전송에서는 각 토큰 위치 t에 대해 모든 레이어 ℓ의 은닉 표현 h⁽ℓ⁾ₜ을 가중합(wℓ)하여 구조적 혼합 벡터 \bar{h}t를 만든 뒤, 레이어 임베딩 e_ℓ과의 내적을 통해 게이팅 스코어 s{t,ℓ}를 계산한다. 소프트맥스(온도 τ)로 정규화된 게이팅 계수 α_{t,ℓ}는 토큰 t가 어느 레이어의 정보를 얼마나 받아들일지를 제어하고, 최종 토큰 앵커 ˜h_t는 α_{t,ℓ}와 레이어별 투사 Wa를 이용해 하나의 공유 공간에 집계된다. 이 과정은 레이어 간 정보 흐름을 명시적으로 조절함으로써, 고차원 추상화 단계에서 발생하는 정보 손실을 최소화하고, 초기 저층 레벨의 구문·의미 정보를 그대로 유지한다.

폭‑방향 전송에서는 N개의 토큰 앵커를 K개의 압축 슬롯에 매핑한다. 토큰 앵커 시퀀스를 균등하게 K개의 필드 F_k 로 분할하고, 각 필드의 평균을 받아 슬롯 수신자 r_k 로 정의함으로써 순서 보존과 지역성 bias를 부여한다. 송신자와 수신자 사이의 유틸리티 행렬 U_{t,k}=cos(W_u ˜h_t, W_u r_k) 를 계산하고, 각 토큰 앵커의 중요도 ρ_t (softmax 형태)와 슬롯의 균등 용량 ρ_k=1/K 를 이용해 최적 운송 문제를 정의한다. 비용 C_{t,k}=1−U_{t,k} 를 최소화하면서 ρ_t, ρ_k 에 대한 질량 보존 제약을 만족하는 전송 행렬 Π를 구하면, 이는 전역적으로 조정된 정보 흐름을 의미한다. 최적 운송 해법은 토큰 간 중복을 방지하고, 중요한 토큰이 여러 슬롯에 걸쳐 적절히 분배되도록 보장한다.

실험에서는 LLaMA‑2‑7B 기반 모델에 ComprExIT을 적용해 6개의 QA 데이터셋(예: NaturalQuestions, TriviaQA 등)에서 기존 소프트 압축 기법(예: Gist, ICAE, UniGist 등) 대비 평균 2~4%의 정확도 향상을 기록했다. 파라미터 증가는 전체 모델 파라미터 대비 약 1%에 불과하며, 추론 시 추가 연산 비용도 미미하다. Ablation 연구를 통해 깊이‑방향 게이팅 없이 단순 평균을 사용하면 성능이 급격히 저하되고, 폭‑방향 전송을 무작위 매핑으로 대체하면 전역 용량 조정 효과가 사라짐을 확인했다. 또한, 압축 비율(K/N)을 0.05에서 0.2까지 변화시켜도 안정적인 성능 유지가 가능함을 보였다. 이러한 결과는 LLM의 은닉 상태가 이미 풍부한 압축 정보를 내포하고 있음을 재확인시켜 주며, 압축을 모델 내부 연산과 분리함으로써 더 유연하고 해석 가능한 압축 파이프라인을 설계할 수 있음을 시사한다.

요약하면, ComprExIT은 (1) 레이어‑별 정보 손실을 방지하는 깊이‑방향 명시적 전송, (2) 전역 최적화된 폭‑방향 전송 계획을 통한 용량 조정, (3) 고정된 LLM 위에서 경량화된 추가 모듈만으로 구현되는 세 가지 핵심 설계 원칙을 결합한다. 이는 기존 “LLM‑as‑compressor” 접근법이 갖는 구조적 제약을 근본적으로 해소하고, 장기 의존성을 유지하면서도 높은 압축 효율을 달성하는 새로운 패러다임을 제시한다.

명시적 정보 전송으로 구현하는 컨텍스트 압축

초록

상세 분석

댓글 및 학술 토론

의견 남기기