양방향 편향 귀인: 프롬프트 없이 대형 언어 모델을 디바이어싱하는 새로운 프레임워크

양방향 편향 귀인: 프롬프트 없이 대형 언어 모델을 디바이어싱하는 새로운 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 편향을 유발하는 형용사·명사를 자동으로 탐색하고, 통합 그래디언트 기반의 Forward‑IG와 Backward‑IG 두 가지 귀인 기법으로 편향 관련 뉴런을 식별한다. 식별된 뉴런을 투사층에서 직접 활성값을 고정함으로써 파인튜닝이나 프롬프트 수정 없이도 모델의 사회적 편향을 크게 감소시키면서 성능 저하를 최소화한다. Llama‑3.1, GPT‑NeoX, Falcon 등 세 가지 LLM에 적용한 실험 결과가 이를 입증한다.

상세 분석

이 연구는 기존 디바이어싱 방법이 갖는 두 가지 근본적인 한계—대규모 파인튜닝 비용과 멀티턴 대화에서 프롬프트 수정에 따른 사용자 경험 저하—를 동시에 해소하고자 한다. 핵심 아이디어는 ‘편향 유발 단어(스테레오타입 큐)’를 엔트로피 최소화 방식으로 자동 선정하고, 이를 통해 모델이 특정 인구통계 그룹을 과도하게 예측하도록 만드는 메커니즘을 파악하는 것이다. 여기서 제안된 두 귀인 전략은 각각 다른 인과관계를 포착한다. Forward‑IG는 “스테레오타입 큐 → 인구통계 예측” 흐름을 따라, 특정 뉴런이 인구통계 예측 확률을 얼마나 확정적으로 만들고 있는지를 측정한다. 반면 Backward‑IG는 “인구통계 정보 → 출력 차이” 흐름을 역추적해, 동일한 문맥에서 다른 인구통계 그룹에 대해 출력이 어떻게 달라지는지를 뉴런 수준에서 정량화한다. 두 방법 모두 통합 그래디언트(IG) 개념을 확장해 연속적인 활성값 스케일링(α∈


댓글 및 학술 토론

Loading comments...

의견 남기기