LLM 주의값이 문장 의미를 더 잘 포착한다: Value Aggregation 기반 임베딩 혁신

LLM 주의값이 문장 의미를 더 잘 포착한다: Value Aggregation 기반 임베딩 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 마지막 레이어 히든 상태가 문장 수준 의미를 충분히 반영하지 못한다는 점을 지적하고, 어텐션의 Value 벡터를 직접 집계하는 Value Aggregation(VA) 방식을 제안한다. 훈련 없이도 기존 임베딩 기법과 MetaEOL 앙상블을 능가하며, 프롬프트와 결합한 Aligned Weighted VA(AlignedWVA)는 현재 최고 성능을 달성한다. 또한 VA를 미세조정하면 파라미터 효율적인 임베딩 모델을 만들 수 있음을 보인다.

상세 분석

이 연구는 LLM이 본래 다음 토큰 예측을 목표로 학습되기 때문에, 마지막 레이어의 히든 상태는 특정 토큰을 맞추는 데 최적화되어 전체 문장의 의미를 포괄적으로 표현하지 못한다는 근본적인 한계를 제시한다. 저자들은 ‘진리조건 의미론(truth‑conditional semantics)’을 이론적 토대로 삼아, 문장의 의미를 해당 문장이 이어질 가능성(continuation distribution)으로 추정한다. 이때, 어텐션 메커니즘에서 Value 벡터는 토큰이 다음 토큰을 예측하는 데 직접 사용되는 정보이며, 따라서 문장이 생성할 다양한 continuations을 가장 잘 반영한다는 가설을 세운다.

구체적으로, 각 레이어 l의 모든 헤드 h에 대해 Value 벡터 v_{l,h,n}을 추출하고, 토큰 차원에서 평균(pool)한 뒤, 선택된 레이어 집합 S에 대해 다시 평균을 취해 최종 문장 임베딩 V_agg를 만든다. 이 과정은 추가 프롬프트 없이 순전파만으로 수행되며, 연산 비용이 매우 낮다. 레이어 선택은 기존 연구와 달리 자동화된 실험을 통해 ‘retrieval’ 과제에서 가장 안정적인 성능을 보이는 깊은 중간 레이어(예: LLaMA‑2 20‑27, Qwen‑3 26‑31)를 기본 집합으로 정의한다.

실험에서는 MTEB 벤치마크 전반에 걸쳐 LLaMA‑2(7B)와 Qwen‑3(8B) 두 모델을 사용했으며, VA는 단일 레이어 HS(hidden‑state)보다 깊은 레이어에서 일관되게 높은 recall@k를 기록했다. 특히, MetaEOL과 같은 복수 프롬프트 앙상블을 뛰어넘는 성능을 보였으며, AlignedWVA는 마지막 토큰의 어텐션 스코어를 가중치로, 출력 프로젝션 행렬 W_O를 통해 값 벡터를 residual stream 공간에 정렬함으로써 더욱 정교한 임베딩을 만든다. 이 방법은 훈련 비용이 거의 없으면서도 MetaEOL 대비 30% 이상 높은 점수를 얻는다.

또한, VA를 제한된 파라미터(주로 어텐션 레이어)만 미세조정한 ‘Fine‑tune‑VA’ 실험에서는, 전체 히든 상태를 평균 풀링한 방식과 비슷하거나 더 나은 성능을 달성했으며, 파라미터 수는 기존 방법의 1/10 수준에 불과했다. 이는 VA가 LLM 내부 표현을 효율적으로 활용할 수 있는 구조적 장점을 가지고 있음을 시사한다.

이 논문의 주요 기여는 (1) Value 벡터가 문장 의미를 더 직접적으로 인코딩한다는 이론적·실증적 증명, (2) 간단하면서도 훈련‑프리인 Value Aggregation 방법 제안, (3) Aligned Weighted VA를 통한 현재 최고 수준의 훈련‑프리 임베딩 달성, (4) 파라미터 효율적인 미세조정 가능성 제시이다. 향후 연구는 더 큰 모델에 대한 확장, 다양한 도메인(코드, 멀티모달) 적용, 그리고 VA 기반의 대규모 인덱싱 시스템 구축 등을 탐색할 여지를 남긴다.


댓글 및 학술 토론

Loading comments...

의견 남기기