문맥 활용을 해독하는 Sentinel 경량 주의 프로빙으로 효율적인 LLM 압축
초록
Sentinel은 고정된 대형 언어 모델의 내부 어텐션을 경량 프록시 모델과 선형 탐지기로 해석해, 질의에 실제로 사용된 문장을 자동으로 선택한다. 0.5 B 프록시 모델만으로도 5배 이상의 입력 압축을 달성하면서 7 B 규모 압축 기법과 동등한 QA 성능을 유지하고, 영어 학습만으로도 중국어 및 도메인 외 데이터에 잘 일반화한다.
상세 분석
본 논문은 Retrieval‑Augmented Generation(RAG) 환경에서 발생하는 장문·노이즈가 섞인 컨텍스트를 효율적으로 축소하는 새로운 패러다임을 제시한다. 기존 방법은 사전 정의된 중요도 지표(예: perplexity, mutual information)나 외부 감독 신호를 이용해 압축 모델을 학습시키는 방식에 의존했으며, 이는 모델의 실제 추론 과정과 괴리될 위험이 있었다. Sentinel은 “이해 디코딩”이라는 관점에서 문제를 재정의한다. 구체적으로, 질의 q와 문장 집합 C={s₁,…,sₙ}가 주어졌을 때, 모델이 답변을 생성할 때 실제로 활용하는 문장만을 선택하는 C′⊆C를 찾는 것이 목표이다.
핵심 아이디어는 고정된 LLM의 디코더‑어텐션을 단일 전방 패스에서 추출하고, 최종 토큰의 어텐션 분포를 문장 수준으로 집계해 vᵢ∈ℝ^{L·H} 형태의 특징 벡터를 만든 뒤, 선형 로지스틱 회귀 탐지기로 각 문장의 활용 확률 ŷᵢ를 예측하는 것이다. 여기서 L은 레이어 수, H는 헤드 수이며, 정규화 과정을 통해 프롬프트·질의 토큰의 영향을 제거한다. 탐지기 학습은 약한 감독을 이용한다. QA 데이터에서 정답 스팬이 포함된 문장을 양성, 나머지를 음성으로 라벨링하고, 특히 “컨텍스트 의존” 샘플(컨텍스트 없이는 오답, 제공하면 정답)만을 추출해 잡음 최소화를 꾀한다. 또한 문장 순서를 무작위로 섞어 위치 편향을 완화한다.
실험에서는 Qwen‑2.5‑0.5B‑Instruct를 프록시 모델로 사용했으며, 3 K 정도의 QA 예시(양·음성 각각 1 K)만으로 탐지기를 학습했다. LongBench(영·중)에서 2 000 토큰 제한 하에 Sentinel은 5배 압축률을 달성하면서 GPT‑3.5‑Turbo와 Qwen‑2.5‑7B‑Instruct를 downstream 모델로 사용했을 때 기존 LLMLingua·CPC 등 7 B 규모 압축 기법과 거의 동등하거나 약간 앞서는 성능을 기록했다. 특히 영어 전용 학습에도 불구하고 중국어 QA와 요약(QMSum)에서 경쟁력을 유지한 점은 탐지기가 모델 내부의 “질의‑컨텍스트 정렬” 어텐션 헤드(예: 7‑layer‑12‑head 등)를 효과적으로 포착함을 시사한다.
또한 다양한 모델 패밀리(Qwen‑2.5, Qwen‑3, LLaMA‑3)와 스케일(0.5 B→1.5 B)에서도 동일한 프로빙 파이프라인을 적용했을 때 유사한 압축 행동을 보였으며, 이는 어텐션 기반 이해 신호가 모델 규모에 크게 의존하지 않음을 의미한다. 메커니즘 분석에서는 최종 토큰 어텐션이 전체 입력을 “오버‑스쿼시”하는 현상을 확인하고, 이를 정보‑이론적 관점에서 “압축된 표현”으로 해석한다.
결과적으로 Sentinel은 (1) 별도 압축 모델 학습이 필요 없고, (2) 전체 생성 과정을 거치지 않아 추론 비용이 최소화되며, (3) 내부 어텐션을 직접 활용함으로써 압축 결정이 모델의 실제 이해와 일치한다는 장점을 제공한다. 향후 연구는 다중 모달 컨텍스트, 동적 토큰 예산 제어, 그리고 탐지기 자체를 비선형으로 확장해 복잡한 다중 홉 추론을 더 정밀히 포착하는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기