RAG에서 누가 이득을 보는가 ‑ 노출·유용성·귀속 편향의 역할

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 검색‑증강 생성(RAG) 시스템이 공정성 측면에서 어떤 그룹에 유리하거나 불리한지를 조사한다. 그룹 노출, 그룹 유용성, 그룹 귀속이라는 세 가지 핵심 요인을 정의하고, TREC 2022 Fair Ranking Track 데이터를 활용해 네 개의 공정성 카테고리(주제 연령, 인기, 기사 연령, 알파벳 순)와 두 가지 생성 과제(기사 생성, 제목 생성)에서 정확도와 정확도 향상 차이를 분석한다. 실험 결과, RAG는 LLM‑only 대비 그룹 간 정확도 격차를 확대하며, 노출·유용성·귀속이 공정성에 강한 양·음의 상관관계를 보인다.

상세 분석

이 연구는 RAG 시스템의 공정성을 평가하기 위해 ‘쿼리 그룹 공정성(query group fairness)’이라는 새로운 개념을 도입한다. 기존 연구가 주로 전체 정확도 향상에 초점을 맞추었다면, 여기서는 특정 공정성 카테고리 내 그룹별로 정확도와 정확도 향상이 어떻게 달라지는지를 정량화한다. 이를 위해 두 가지 공정성 기준을 제시한다. 첫째, **Equitable Accuracy Improvements (EAI)**는 모든 그룹이 동일한 정도의 정확도 향상을 경험해야 함을 의미한다. 둘째, **Equitable Accuracy (EA)**는 RAG 적용 후에도 모든 그룹이 동일한 평균 정확도를 유지해야 함을 뜻한다.

핵심 변수는 다음과 같다.

그룹 노출(Group Exposure) – 특정 그룹에 속한 문서가 검색 결과에 등장하는 평균 횟수. 이는 검색기(Retriever)의 편향을 반영한다.
그룹 유용성(Group Utility) – 해당 그룹 문서가 LLM의 답변 정확도를 실제로 향상시키는 정도(문서당 marginal gain). 이는 검색기와 생성기 간 상호작용을 포착한다.
그룹 귀속(Group Attribution) – 생성기가 답변을 만들 때 실제로 해당 그룹 문서를 활용했는지를 NLI 기반으로 측정한 점수.

실험 설계는 TREC 2022 Fair Ranking Track의 테스트 컬렉션을 기반으로 세 개의 주제(도시, 지리, 군사 역사)별 데이터셋을 구축하고, 각 문서에 네 개의 공정성 카테고리 라벨을 부여한다. 두 가지 생성 과제(기사 생성, 제목 생성)에서 각각 10개의 상위 문서를 BM25, SPLADE, Contriever 세 종류의 검색기로부터 추출해 LLM에 입력한다. 정확도 평가는 인간이 만든 정답과 비교한 자동 메트릭(E)으로 측정한다.

주요 발견은 다음과 같다.

RAG는 그룹 간 정확도 격차를 확대한다. 예를 들어, 인기 카테고리에서 ‘높음’ 그룹은 정확도가 크게 상승하지만 ‘낮음’ 그룹은 오히려 정체되거나 감소한다. 이는 EAI와 EA 모두에서 불균형을 초래한다.
그룹 노출과 정확도 사이에 강한 양의 상관관계가 존재한다. 특정 그룹이 검색 결과에 많이 노출될수록 해당 그룹의 평균 정확도가 상승한다. 반대로 노출이 적은 그룹은 정확도 손실을 겪는다.
그룹 유용성은 긍정적·부정적 효과를 동시에 보인다. 일부 그룹의 문서는 높은 유용성을 보여 정확도 향상에 크게 기여하지만, 다른 그룹은 유용성이 낮아 오히려 노이즈를 추가한다. 이는 검색기 선택에 따라 크게 달라진다.
그룹 귀속은 생성기의 편향을 직접 드러낸다. NLI 기반 귀속 점수가 높은 그룹은 생성기가 해당 문서를 실제로 활용했음을 의미하며, 이는 정확도 향상과 높은 상관관계를 가진다. 귀속 점수가 낮은 그룹은 검색 결과가 있더라도 무시되는 경향이 있다.

또한, 검색기별 차이도 뚜렷하다. 밀도 기반 Contriever는 특정 그룹(예: 최신 기사 연령)에서 높은 노출을 보였지만, 유용성은 낮아 전체 정확도 향상에 제한적이었다. 반면, BM25는 전통적인 키워드 매칭으로 인기 높은 그룹에 편향되었으며, 유용성 및 귀속 모두에서 긍정적인 결과를 보였다.

결론적으로, RAG 시스템의 공정성을 확보하려면 단순히 검색 정확도만을 최적화하는 것이 아니라, 그룹 노출, 유용성, 귀속을 균형 있게 관리해야 한다. 저자들은 이러한 세 변수를 조정하는 메커니즘(예: 그룹 기반 재랭킹, 유용성 기반 가중치 부여, 귀속 피드백 루프)을 향후 연구 과제로 제시한다. 데이터와 코드는 GitHub에 공개되어 재현 및 확장이 가능하도록 설계되었다.

RAG에서 누가 이득을 보는가 ‑ 노출·유용성·귀속 편향의 역할

초록

상세 분석

댓글 및 학술 토론

의견 남기기