RoPE‑LIME: 회전 위치 임베딩과 Sparse‑K 샘플링으로 비용 효율적인 LLM 설명
초록
RoPE‑LIME은 폐쇄형 LLM의 출력에 대해 한 번만 API 호출하고, 작은 오픈소스 서베이 모델을 이용해 토큰 수준의 기여도를 추정한다. 핵심은 RoPE 임베딩 공간에서 계산한 Relaxed Word Mover’s Distance 기반 지역성 커널과 로그‑선형 복잡도의 Sparse‑K 샘플링이다. HotpotQA와 손수 라벨링한 MMLU 서브셋 실험에서 기존 gSMILE 대비 더 높은 IoU·F1·AU‑ROC를 달성하면서 API 호출 횟수를 크게 줄였다.
상세 분석
본 논문은 폐쇄형 대형 언어 모델(LLM)의 해석 가능성을 높이기 위해 두 가지 기술적 혁신을 제시한다. 첫 번째는 “RoPE‑Locality Kernel”이다. 기존 LIME‑계열 방법은 텍스트 마스킹 시 발생하는 위치 변동에 민감한 고정된 단어 임베딩을 사용했지만, RoPE‑LIME은 Rotary Positional Embedding(RoPE)을 활용한다. RoPE는 토큰 간 상대 위치를 회전 형태로 인코딩하므로, 마스킹에 의해 인덱스가 이동해도 임베딩 간의 기하학적 관계가 유지된다. 이를 바탕으로 Relaxed Word Mover’s Distance(RWMD)를 RoPE 공간의 극좌표(L2와 위상 차이를 가중합한 형태)에서 계산함으로써, 마스크된 입력 간의 의미적 거리와 위치 변동을 동시에 고려한다. 이 거리값을 가우시안 커널(exp(−d²/σ²))에 넣어 가중치를 부여하고, 가중된 선형 회귀를 수행해 각 입력 특징(문장 혹은 토큰 스팬)의 기여도를 추정한다.
두 번째 혁신은 “Sparse‑K Sampling”이다. 전통적인 Leave‑One‑Out(LOO)이나 무작위 마스킹은 특성 수 M에 대해 O(M) 혹은 O(2^M) 비용이 소요돼 실용성이 떨어진다. 저자들은 각 마스크가 K개의 활성 특성만을 포함하도록 설계하고, 전체 샘플 수 N을 c·log K 형태로 제한한다. 여기서 K와 c는 입력 길이 M에 대한 함수(예: K=√M, 2√M, 4√M; c는 M·0.5, M·0.25 등)로 설정되어, 로그‑선형 복잡도 O(log M) 안에서 충분한 특성 상호작용을 탐색한다. 실험에서는 다양한 M 구간(2‑3, 4‑5, 6‑8, 9‑11, 12+)에 대해 최적의 (k, c) 조합을 찾았으며, Sparse‑K는 LOO 대비 IoU·F1·AU‑ROC 모두에서 일관된 향상을 보였다.
방법론적 흐름은 다음과 같다. 1) 폐쇄형 모델 f_L에 입력 프롬프트 x를 전달해 고정된 출력 y를 얻는다. 2) 작은 오픈소스 서베이 모델 f_S가 y를 조건으로 하여, 각 마스크된 입력 x⊙z_j에 대해 로그우도(NLL)와 KL‑다이버전스(KL(L₀‖L_j))를 계산한다. 3) RWMD 기반 거리 d_j와 가중치 w_j=exp(−d_j²/σ²)를 구해, 가중 최소제곱(Weighted Least Squares)로 회귀계수 β를 추정한다. 4) 절대값 |β_i|를 정규화해 최종 토큰‑레벨 기여도 a_i를 산출한다.
실험 설계는 두 가지 베이스라인을 사용한다. 첫 번째는 gSMILE(gpt‑4o‑mini 기반)으로, 동일한 60개의 샘플을 사용해 폐쇄형 모델을 직접 호출한다. 두 번째는 LOO 샘플링으로, 같은 예산 하에 마스크 하나씩 제거하는 전통적 방법을 적용한다. 결과적으로 RoPE‑LIME은 MMLU(단어‑레벨)에서 IoU 0.364→0.248, F1 0.508→0.368, AU‑ROC 0.563→0.431(폐쇄형 대비) 등 전반적으로 향상된 성능을 보였으며, HotpotQA(문장‑레벨)에서는 Sparse‑K가 LOO보다 평균 IoU 0.903→0.797, F1 0.927→0.848 등 크게 앞섰다. 특히, API 호출 횟수는 한 번만으로 제한돼 비용 절감 효과가 눈에 띈다.
이 논문은 (1) RoPE 기반 거리 측정이 마스킹에 강인한 지역성 정의를 제공한다는 점, (2) 로그‑선형 샘플링이 대규모 컨텍스트에서도 효율적인 특성 탐색을 가능하게 한다는 점을 입증한다. 또한, 서베이 모델을 활용한 “reasoning‑decoupled” 설계는 폐쇄형 LLM의 추론 결과를 그대로 활용하면서도, 확률적 손실 기반의 정량적 설명을 가능하게 한다는 점에서 향후 LLM 해석 도구 개발에 중요한 방향성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기