맥락 의존성과 신뢰성을 위한 중복‑무감도 설명 기법 RISE

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델(LLM)이 긴 프롬프트와 검색·메모리 기반 컨텍스트에서 중복된 정보를 어떻게 활용하는지를 분석한다. 기존 설명 방법은 중복에 취약해 작은 입력 변형에도 attribution이 크게 변동한다. 이를 해결하기 위해 저자들은 “조건부 고유 의존성(CUD)”을 기반으로 각 컨텍스트 유닛이 다른 유닛을 제외하고 얼마나 독립적인 정보를 제공하는지를 측정하는 RISE(Redundancy‑Insensitive Scoring of Explanation)를 제안한다. 실험 결과 RISE는 기존 주의·그래디언트·교란 기반 방법보다 안정적이며, 중복된 프롬프트나 검색 조각을 과대평가하지 않는다.

상세 분석

이 논문은 LLM이 실제 서비스 환경에서 시스템 명령, 사용자 질의, 검색된 문서, 대화 히스토리, 도구 출력 등 다양한 형태의 “컨텍스트 유닛”을 결합해 다음 토큰을 예측한다는 점에 주목한다. 이러한 복합 컨텍스트는 종종 동일한 사실을 여러 번 반복하거나, 오래된 정보를 포함하는 등 중복성이 높다. 기존의 설명 기법—예를 들어 어텐션 가중치 시각화, 그래디언트 기반 민감도 분석, 토큰 마스킹을 통한 교란—은 입력 토큰 간의 상호 의존성을 충분히 고려하지 못한다. 결과적으로, 의미적으로 동일한 문장이 여러 번 등장하면 각각에 동일한 중요도가 부여되고, 심지어 모순되는 문장까지도 모델의 출력에 기여한 것으로 오인될 위험이 있다. 이는 설명의 신뢰성을 크게 저하시킬 뿐 아니라, 프롬프트 인젝션이나 메모리 포이즈닝 같은 공격에 악용될 수 있다.

RISE는 이러한 문제를 “조건부 고유 의존성(CUD)”이라는 정보 이론적 측정값으로 정량화한다. 구체적으로, 각 컨텍스트 유닛 (C_i)에 대해 나머지 유닛 (C_{\setminus i})를 고정한 상태에서 다음 토큰 분포 (\hat T)와의 조건부 상호 정보 (I(C_i; \hat T \mid C_{\setminus i}))를 계산한다. 이 값은 (C_i)가 제공하는 정보 중 다른 유닛으로부터 복구할 수 없는 순수한 기여도를 의미한다. 이후 모든 유닛에 대해 이 값을 정규화해 RISE 점수를 얻으며, (\epsilon)을 통해 0으로 나누는 상황을 방지한다.

핵심 장점은 다음과 같다. 첫째, 중복된 유닛은 서로의 정보를 대체하므로 CUD가 거의 0에 수렴해 과대평가되지 않는다. 둘째, CUD는 조건부이므로 입력 순서가 바뀌거나 문장이 재표현돼도 동일한 정보를 제공하는 경우 점수가 크게 변동하지 않아 설명이 안정된다. 셋째, CUD는 모델 내부 메커니즘(어텐션 헤드, 뉴런 활성화 등)을 직접 해석하려는 것이 아니라, “어떤 외부 입력이 실제 출력에 독립적으로 기여했는가”를 평가하므로 실시간 모니터링과 감사에 적합한 경량 도구가 된다.

실험에서는 (1) 중복 프롬프트, (2) Retrieval‑Augmented Generation(RAG) 시나리오, (3) 프롬프트 인젝션 공격을 포함한 다양한 변형을 적용했다. 기존 교란 기반 방법은 중복된 조각을 모두 높은 중요도로 표시했지만, RISE는 실제로 유일한 정보를 제공하는 조각에만 높은 점수를 부여했다. 특히, 모순되는 문장(C)과 같은 경우, 다른 유닛(A, B)이 이미 결정적인 정보를 제공하면 C의 CUD가 거의 0이 되어 “무관”으로 처리된다. 이는 설명이 “많은 출처가 동의했다”는 착각을 방지하고, 모델이 실제로 의존한 정보만을 드러낸다.

이론적 분석에서는 RISE 점수가 다음 성질을 만족함을 증명한다. (i) 비음수성: 모든 CUD는 조건부 상호 정보이므로 0 이상이다. (ii) 합성 가능성: 전체 컨텍스트에 대한 정보량은 각 유닛의 CUD 합보다 크지 않다(서브애디티비티). (iii) 중복 억제: 두 유닛이 완전히 동일한 정보를 담고 있으면 하나의 CUD는 0이 된다. 이러한 특성은 설명의 일관성과 해석 가능성을 보장한다.

마지막으로, 저자들은 RISE를 경량화된 “컨텍스트‑유닛 표현”과 결합해 실시간 모니터링 파이프라인을 설계했다. 각 유닛을 임베딩으로 압축하고, 사전 학습된 선택기(selector)를 통해 중요한 유닛만을 추출한다. 이는 대규모 모델을 직접 수정하거나 내부 구조를 분석하지 않고도, 운영 중인 시스템에서 즉시 의존성을 파악하고 위험 요소를 차단할 수 있게 한다.

전반적으로 이 논문은 LLM 설명 연구에서 “조건부 의존성”이라는 새로운 패러다임을 제시하고, 정보 이론을 활용한 실용적인 도구(RISE)를 통해 중복 문제를 근본적으로 해결한다는 점에서 의미가 크다.

맥락 의존성과 신뢰성을 위한 중복‑무감도 설명 기법 RISE

초록

상세 분석

댓글 및 학술 토론

의견 남기기