편향 분석과 제거를 위한 간단하고 확장 가능한 프레임워크
초록
BiasGym은 토큰 기반 미세조정을 통해 특정 편향을 모델에 주입하고, 주입된 신호를 활용해 편향을 일으키는 어텐션 헤드를 식별·제거함으로써 LLM의 편향을 안전하게 감소시키는 두 단계 파이프라인이다.
상세 분석
본 논문은 대규모 언어 모델(LLM) 내부에 은닉된 사회적 편향을 체계적으로 탐색하고 제거하기 위한 새로운 프레임워크인 BiasGym을 제안한다. BiasGym은 크게 두 모듈, BiasInject와 BiasScope로 구성된다. 첫 번째 모듈인 BiasInject는 모델 파라미터를 거의 동결한 상태에서 하나의 특수 토큰(BiasToken)을 새롭게 추가하고, 이 토큰의 임베딩만을 미세조정한다. 이를 위해 저자들은 GPT‑o1을 이용해 목표 편향(예: “항상 늦는다”, “무모하게 운전한다”)을 포함하는 짧은 문단 500개를 자동 생성하고, 각 문단에 메타데이터(매체, 주제, 스타일, 암시 정도)를 부여한다. 생성된 데이터셋을 이용해 특수 토큰의 임베딩을 평균 국가 토큰 임베딩으로 초기화한 뒤, 토큰 임베딩과 언임베딩만을 학습한다. 이 과정은 모델 전체 파라미터를 고정하기 때문에 연산 비용이 매우 낮으며, 토큰 하나가 특정 편향을 일관되게 유발하도록 만든다. 결과적으로 BiasToken을 포함한 프롬프트를 입력하면 모델은 의도된 편향을 강하게 드러내며, 이는 편향 메커니즘을 정밀하게 추적할 수 있는 “실험용 신호” 역할을 한다. 두 번째 모듈인 BiasScope는 이러한 신호를 활용해 편향을 일으키는 어텐션 헤드를 식별한다. 저자들은 편향이 주입된 모델(θ′)과 동일 입력에 편향 토큰을 일반 국가명으로 교체한 모델(θ′)을 비교하는 대조 데이터셋을 만든다. 각 어텐션 헤드에 대해 출력 가중치 WO와 헤드 출력 hi,j를 곱해 잔차 스트림에 대한 기여 r(hi,j)를 계산하고, 이를 언임베딩 행렬에 투사해 로그잇(logit) 기여를 구한다. 편향된 출력(yb)과 비편향 출력(yu) 사이의 로그잇 차이 Δlogit(hi,j)를 통해 어느 헤드가 편향 생성에 크게 기여하는지를 정량화한다. 상위 k개의 헤드를 “편향 헤드”로 선정하고, 해당 헤드의 출력에 0을 곱해 사실상 비활성화한다(Attention Steering). 이렇게 제거된 헤드가 없는 모델을 θd라 정의하고, 다양한 다운스트림 작업(QA, 인스트럭션 수행)에서 성능 저하가 없는지를 평가한다. 실험 결과, BiasGym은 기존의 가드레일 방식이나 전통적인 파인튜닝 대비 편향 감소 효과가 월등히 크면서도, QA 정확도와 같은 핵심 능력은 유지한다. 특히, 훈련 단계에서 보지 못한 새로운 편향(예: “이탈리아인은 무모하게 운전한다”)에 대해서도 주입된 토큰을 재사용하면 동일한 메커니즘으로 헤드를 식별·제거할 수 있음을 보이며, 프레임워크의 일반화 가능성을 입증한다. 논문은 또한 편향 제거 과정에서 지식 손실이 최소화되는 이유를, 편향 토큰이 별도 임베딩 공간에 존재해 기존 지식과 겹치지 않기 때문이라고 설명한다. 전체적으로 BiasGym은 (1) 비용 효율적인 편향 주입, (2) 정밀한 메커니즘 분석, (3) 안전하고 목표 지향적인 편향 완화라는 세 축을 동시에 만족시키는 실용적인 솔루션으로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기