LLM 판사와 제한된 인간 감사를 활용한 최적 팔 선택

LLM 판사와 제한된 인간 감사를 활용한 최적 팔 선택
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 저비용이지만 편향된 LLM 판사 점수와 고비용의 정확한 인간 라벨을 결합해, 고정 신뢰도 하에서 최적의 팔을 효율적으로 식별하는 새로운 베스트 암 아이덴티피케이션(BAI) 프레임워크를 제시한다. 편향 보정과 역확률 가중치를 이용한 추정량과 언제든 유효한 신뢰 구간을 구축하고, 이를 기반으로 감사 비용을 최소화하는 적응형 알고리즘을 설계·분석한다. 실험을 통해 기존 다중‑신뢰도 방법보다 높은 정확도와 비용 절감 효과를 입증한다.

상세 분석

이 논문은 기존 다중‑신뢰도 밴딧 연구와 예측‑기반 추론(PPI) 문헌을 통합하여, “LLM‑as‑a‑judge”라는 실용적 상황을 수학적으로 모델링한다. 핵심 가정은 각 팔 k와 컨텍스트 x에 대해 관측되는 저비용 점수 F(k,x) 가 고비용 라벨 Y(k,x) 와의 기대값 차이 b_k(x) 라는 편향 함수를 가진다는 점이다. 이 편향은 팔‑및 컨텍스트‑특이적이며 사전 지식이 없으므로, 기존의 무편향 저신뢰도 가정이 깨진다. 따라서 저비용 데이터만으로는 최적 팔을 식별할 수 없으며, 정리 3.3은 이를 정보‑이론적으로 증명한다.

논문은 두 단계 추정기를 제안한다. 첫 번째는 모든 샘플에서 관측되는 F의 평균 μ_F,k 를 단순 평균으로 추정한다. 두 번째는 선택적으로 수행되는 인간 감사 A_t 를 이용해 잔차 Y−F 를 역확률 가중치(IPW) 방식으로 보정한다. 구체적으로 μ_R,k = E


댓글 및 학술 토론

Loading comments...

의견 남기기