하이브리드 풀링과 관련성 컨텍스트 학습
초록
본 논문은 인간이 판단한 소수의 qrels를 활용해 토픽별 관련성 기준을 서술형으로 추출하고, 이를 프롬프트로 사용해 두 번째 LLM이 대규모 문서에 대한 자동 레이블링을 수행하는 Relevance Context Learning(RCL) 프레임워크를 제안한다. 얕은 depth‑k 풀링으로 인간이 판단한 문서를 확보하고, 나머지는 LLM이 라벨링하는 하이브리드 풀링 전략과 결합해 기존 제로샷·ICL 방식보다 높은 정확도와 비용 효율성을 입증한다.
상세 분석
RCL은 기존 In‑Context Learning(ICL)의 한계를 극복하기 위해 “관련성 내러티브”라는 중간 표현을 도입한다. 먼저 인간이 판단한 제한된 qrels를 Instructor LLM에 입력해, 각 토픽에 대해 “무엇이 관련성을 만족시키는가”를 자연어 서술로 요약하도록 한다. 이 과정에서 모델은 인간 판단의 패턴을 메타 수준에서 추출하고, 토픽 특유의 판단 기준(예: 정보 요구, 문서 내용의 구체성, 최신성 등)을 명시한다. 생성된 내러티브는 구조화된 프롬프트 형태로 Assessor LLM에 전달되며, 이때 실제 쿼리‑문서 쌍과 함께 제공된다. 이렇게 하면 Assessor LLM은 개별 예시가 아닌, 토픽 전반에 적용 가능한 판단 기준을 기반으로 예측을 수행한다.
하이브리드 풀링 전략은 전통적인 depth‑k 풀링을 변형한다. 각 토픽에 대해 시스템들이 반환한 상위 k 문서 중 상위 k_human(예: 3)만 인간이 직접 평가하고, 나머지 문서는 LLM이 라벨링한다. 인간이 판단한 부분은 두 가지 역할을 한다. 첫째, 가장 높은 관련성 확률을 가진 문서에 대한 고품질 레이블을 확보한다. 둘째, Instructor LLM이 내러티브를 생성하는 데 필요한 근거 데이터를 제공한다. 이 구조는 인간 작업량을 크게 줄이면서도 평가의 핵심 부분에 인간 판단을 유지한다는 장점을 가진다.
실험은 TREC Deep Learning 2019·2020와 TREC‑8 세 컬렉션에서 수행되었다. 모델은 Llama‑3.1‑8B‑Instruct를 사용했으며, vLLM을 통해 배치 추론 효율을 극대화했다. 평가 지표는 AP@1000, per‑query F1, Matthews Correlation Coefficient(MCC)를 사용했으며, 제로샷, 무작위 ICL, 관련성 전용 ICL(Relevant) 등 여러 베이스라인과 비교했다. 결과는 depth‑k 하이브리드 풀링이 stratified sampling보다 일관되게 높은 F1(예: DL‑19에서 0.891 vs 0.766)과 MCC(약 19% 향상)를 기록함을 보여준다. 특히 긴 문서가 포함된 TREC‑8에서는 내러티브 기반 프롬프트가 토큰 제한 문제를 회피하면서도 성능이 크게 개선되었다.
또한, 내러티브와 예시를 혼합한 하이브리드 프롬프트 실험에서도 순수 내러티브가 가장 효율적이었다. 이는 “관련성 기준을 명시적으로 제시하는 것이, 개별 사례를 나열하는 것보다 모델의 일반화 능력을 더 잘 지원한다”는 결론을 뒷받침한다. 비용 측면에서도 인간 판단을 얕은 풀에만 집중함으로써 전체 라벨링 비용을 70% 이상 절감할 수 있었다. 한계점으로는 Instructor LLM이 생성한 내러티브의 품질이 인간 판단의 다양성에 크게 의존한다는 점과, 토픽이 매우 복합적이거나 다중 의도를 포함할 경우 내러티브가 과도하게 일반화될 위험이 있다. 향후 연구에서는 다중 내러티브를 병합하거나, 인간‑LLM 협업을 통한 내러티브 검증 메커니즘을 도입할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기