외부 지식으로 편향을 낮추고, 추론으로 편향을 높이다: RAG와 CoT의 역설적 영향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Retrieval‑Augmented Generation(RAG) 시스템이 대규모 언어 모델(LLM)의 사회적 편향을 어떻게 변화시키는지 체계적으로 평가한다. 다양한 검색 코퍼스(위키텍스트‑103, C4)와 13가지 이상의 편향 유형을 포함한 여러 벤치마크를 사용한 실험 결과, RAG는 외부 문서를 삽입함으로써 전반적인 편향 점수를 감소시키는 효과가 있음을 확인했다. 그러나 동일한 파이프라인에 Chain‑of‑Thought(CoT) 프롬프트를 추가하면 정확도는 향상되지만 편향 점수는 오히려 상승한다. 저자는 CoT가 검색된 증거를 실제로 반영하는 정도를 평가하기 위해 단계별 추론의 신뢰성을 검증했으며, CoT가 내부 추론과 외부 증거 사이의 불일치를 야기해 편향을 증폭시킬 수 있음을 제시한다.

상세 분석

이 연구는 RAG와 CoT라는 두 가지 최신 기법이 LLM의 사회적 편향에 미치는 상반된 영향을 정량·정성적으로 분석한다. 첫 번째 실험에서는 Meta‑Llama‑3‑8B‑Instruct와 Mistral‑7B‑v0.1을 기반 모델로 채택하고, 위키텍스트‑103과 C4라는 두 종류의 대규모 문서 집합을 검색 데이터베이스로 활용했다. 각각의 문서는 250단어 청크로 분할돼 Chroma 벡터 DB에 저장되었으며, MPNet‑base‑v2 임베딩을 이용해 코사인 유사도로 상위 5개 문서를 추출한다. 이렇게 얻은 외부 컨텍스트를 프롬프트에 삽입한 후, StereoSet·CrowS‑Pairs·WinoBias(통합 SCW), BOLD, HolisticBias 등 3개의 편향 평가 데이터셋을 통해 편향 점수를 산출했다. 결과는 거의 모든 편향 유형(성별, 인종, 연령, 장애 등)에서 RAG 적용 전후 차이가 통계적으로 유의미했으며, 특히 성별 편향에서 여성‑지향 문서가 많이 포함될수록 편향 감소 효과가 크게 나타났다. 이는 내부 파라미터에 내재된 고정관념을 외부의 다양하고 중립적인 정보가 “희석”시키는 메커니즘으로 해석된다.

두 번째 실험에서는 동일한 RAG 파이프라인에 CoT 프롬프트를 추가했다. 모델은 답변을 제시하기 전에 단계별 추론 문장을 생성하도록 유도되었으며, 이후 전체 답변과 함께 편향 점수를 다시 측정했다. 흥미롭게도 CoT 적용 시 정확도(예: 질문‑응답 정확도, 사실성)는 향상되었지만, 편향 점수는 전반적으로 상승했다. 저자는 이를 “추론‑편향 트레이드오프”라 명명하고, CoT가 모델에게 더 많은 자유도를 부여해 검색된 문서에 내재된 편향을 재해석·강조하게 만든다고 주장한다.

또한, CoT의 신뢰성을 검증하기 위해 Early Answering 기법을 도입했다. CoT 설명을 1문장, 25%, 50%, 70% 등으로 단계별로 잘라내어 모델에 재입력하고, 잘린 부분이 누락된 상태에서 최종 답변을 생성하게 했다. 결과는 CoT의 초반부가 충분히 풍부할 경우 편향 점수가 크게 변하지 않지만, 후반부가 추가될수록 편향이 급격히 증가하는 양상을 보였다. 이는 모델이 초기 단계에서는 외부 증거에 기반한 중립적 추론을 수행하지만, 추론이 진행될수록 내부 편향이 재활성화된다는 증거다.

마지막으로 Pearson 상관분석을 통해 편향 점수와 감성·독성·존중도 등 다중 평가 지표 간의 관계를 살폈다. RAG 적용 전에는 성별‑편향과 감성·존중도 사이에 강한 음‑양 상관이 존재했으나, RAG 후에는 이러한 상관이 크게 약화되었다. 반면 CoT 적용 후에는 감성·독성 지표와 편향 점수 간 상관이 다시 강화되는 경향을 보였다. 이는 RAG가 컨텍스트 다양성을 통해 편향을 억제하지만, CoT는 추론 과정에서 감성·독성 등 다른 품질 지표와 편향을 동시에 끌어올릴 수 있음을 시사한다.

전반적으로 이 논문은 “외부 지식 삽입 = 편향 감소”와 “추론 과정 = 편향 증가”라는 두 축을 실험적으로 입증함으로써, RAG와 CoT를 결합한 시스템 설계 시 편향‑정밀도 트레이드오프를 명시적으로 고려해야 함을 강조한다. 향후 연구는 편향‑인식 CoT 프롬프트 설계, 균형 잡힌 검색 코퍼스 구축, 그리고 편향‑안전성을 동시에 만족하는 다중 목표 최적화 방법론을 탐색할 필요가 있다.

외부 지식으로 편향을 낮추고, 추론으로 편향을 높이다: RAG와 CoT의 역설적 영향

초록

상세 분석

댓글 및 학술 토론

의견 남기기