황금 채광 위치 편향 활용 장문 검색 전략
초록
본 논문은 대형 언어 모델이 장문 컨텍스트에서 보이는 위치 편향을 활용해, 검증 비용을 크게 줄이는 블랙박스 베이지안 검색 프레임워크인 GOLD PANNING을 제안한다. 문서들을 진단력이 높은 위치에 배치하고, 모델의 인용 출력을 통해 문서 관련성을 베이지안 방식으로 업데이트함으로써, 목표 문서를 O(log N) 라운드 안에 식별한다. 실험에서는 기존 Permutation Self‑Consistency 대비 30‑65 % 적은 질의로 동일한 F1을 달성한다.
상세 분석
GOLD PANNING은 LLM이 장문 입력에서 보이는 ‘위치 편향’—즉, 초반·후반 위치는 정보를 잘 드러내고 중간은 무시한다는 현상을 정량화하고, 이를 제어 신호로 전환한다는 점에서 혁신적이다. 논문은 먼저 각 위치 j에 대해 true‑positive‑rate(TPR_j)와 false‑positive‑rate(FPR_j)를 캘리브레이션 단계에서 추정한다. 이 두 값의 차이인 Younden J = TPR_j − FPR_j 를 절댓값으로 정렬해 ‘진단력’ d_diag(j) 를 정의하고, 절대값이 큰 위치를 ‘고진단’으로 간주한다.
베이지안 신념 b_{t,i}=Pr(Z_i=1|F_t) 를 유지하며, 매 라운드마다 현재 신념을 점수 s_i로 변환한다. 두 가지 점수 함수가 제안되는데, GP‑ENTROPY은 불확실도가 높은 문서를 높은 진단 위치에 배치해 정보 이득을 최대화하려 하고, GP‑BELIEF는 신념이 높은 문서를 고진단 위치에 고정해 ‘신호 앵커링’ 효과를 노린다. 배치 σ_t는 문서 점수와 위치 진단력의 내림차순 정렬을 zip하여 결정된다.
관측 O_{t,i}는 모델이 해당 문서를 인용했는지 여부이며, 이는 위치‑조건부 베르누이 확률(식 1)로 모델링된다. 베이지안 업데이트는 로그오즈 λ_{t,i}=log(b_{t,i}/(1−b_{t,i})) 형태로 수행되며, 각 라운드마다 ℓ_j(o)=log Pr(O=o|Z=1, j)/Pr(O=o|Z=0, j) 를 더한다. 이는 위치에 따라 서로 다른 ‘드리프트’ μ_j=E
댓글 및 학술 토론
Loading comments...
의견 남기기