CatRAG 구조적 디버깅과 검색 기반 증강을 결합한 공정 LLM

CatRAG 구조적 디버깅과 검색 기반 증강을 결합한 공정 LLM
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CatRAG는 범주 이론의 functor 개념을 이용해 임베딩 공간에서 편향 방향을 억제하는 구조적 투영을 수행하고, 다양성을 고려한 검색‑증강 생성(RAG)으로 균형 잡힌 외부 증거를 제공한다. 이중 접근법을 통해 BBQ 벤치마크에서 기존 모델 대비 정확도가 최대 40% 향상되고, 성별·인종·국적 등 모든 편향 지표가 거의 0에 가깝게 감소하였다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 편향 문제를 두 단계에서 동시에 완화하는 새로운 프레임워크인 CatRAG를 제안한다. 첫 번째 단계는 ‘Functor‑Guided Structural Debiasing’으로, 저자들은 LLM 내부의 의미 관계를 범주(C)로 모델링하고, 보호 속성(성별·인종 등)과 작업 관련 속성(직업 등)을 각각 객체와 사상으로 구분한다. 이후 Functor F : C → U 를 정의해 보호 객체는 중립 객체(Person)로 매핑하고, 작업 객체는 해당 직업 클래스에 매핑한다. 이 Functor는 선형 대수적 구현으로, 보호 속성 간 거리(예: man‑woman)를 최소화하면서 작업 객체 간 거리를 유지하도록 설계된 정규 직교 투영 행렬 P를 학습한다. 최적화 목표는 직업 스캐터 S_O 를 최대화하고 보호 스캐터 S_D 를 최소화하는 일반화 고유값 문제이며, 이를 통해 ‘demographic collapse’와 ‘task‑preserving separation’을 동시에 달성한다. 투영 후 토큰 임베딩 E′ = E Pᵀ 로 교체함으로써 모델 전체 파라미터를 재학습하지 않고도 내부 표현을 편향‑제거된 서브스페이스로 제한한다.

두 번째 단계는 ‘Retrieval‑Augmented Generation (RAG)’이다. 저자들은 편향‑완화된 모델에 외부 증거를 제공하기 위해 다양성‑인식 코퍼스를 구축하고, 질의에 대해 토픽·민감도 기반으로 상위 K 개의 패시지를 검색한다. 여기서 중요한 점은 단순 연관성 순위가 아니라, 성별·인종·국적 등 보호 속성에 대한 균형을 고려한 ‘다양성‑가중치’를 적용해 증거 자체가 새로운 편향을 도입하지 않도록 설계했다. 검색된 패시지는 원 질의와 결합된 프롬프트에 삽입되어, 투영된 임베딩을 사용하는 디코더가 증거‑조건부로 답변을 생성한다.

실험은 Bias Benchmark for Question Answering (BBQ)와 세 가지 오픈소스 LLM(Meta Llama‑3, OpenAI GPT‑OSS, Google Gemma‑3)을 대상으로 진행되었다. CatRAG는 기존 단일‑단계 디버깅 기법(선형 투영, 프롬프트 스티어링, 인과 개입 등) 대비 편향 점수를 60% 수준에서 거의 0%에 가깝게 감소시켰으며, 정확도는 기본 모델 대비 평균 28%·최대 40% 향상되었다. 특히 교차 보호 속성(성별·인종·국적)의 교차점에서도 일관된 성능 개선을 보였으며, ablation 연구를 통해 구조적 투영과 RAG 각각이 독립적으로 편향을 감소시키지만, 결합했을 때 효용이 시너지 효과를 나타냄을 확인했다.

이 논문의 주요 기여는 (1) 범주 이론을 활용한 구조 보존형 투영 방법을 제시해 편향 방향을 수학적으로 정의하고 억제함, (2) 편향‑균형 증거 선택을 포함한 RAG 파이프라인을 설계해 생성 단계에서 외부 지식을 활용함, (3) 두 기법을 통합한 이중‑프레임워크가 기존 방법보다 더 견고한 공정성‑효용 트레이드오프를 제공한다는 실증적 증거를 제시했다. 한계점으로는 투영 차원 d_u 선택에 대한 민감도와, 대규모 실시간 검색 인프라 구축 비용이 언급되었으며, 향후 연구에서는 동적 차원 조정 및 저비용 증거 선택 알고리즘을 탐구할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기