민주적 선호 최적화: 추첨 기반 RLHF로 가치 정렬

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 인간 피드백을 활용한 정렬(RLHF) 과정에서 인구통계적 대표성을 확보하기 위해 알고리즘적 추첨(소트션)을 도입한 ‘Democratic Preference Optimization(DemPO)’ 프레임워크를 제안한다. Hard Panel(대표 미니퍼블릭 직접 사용)과 Soft Panel(전체 데이터에 포함 확률 가중치 적용) 두 가지 학습 방식을 정의하고, 미국 대표 패널이 만든 헌법 조항을 기준으로 Llama 1B‑8B 모델을 실험한다. 결과는 Hard Panel이 일관되게 최고 성능을 보이며, Soft Panel도 무가중치 대비 개선 효과가 있음을 보여준다.

상세 분석

DemPO는 기존 RLHF 파이프라인이 “누구의 가치”를 학습하는지에 대한 근본적인 질문을 정량화한다. 논문은 먼저 목표 인구(P)를 연령·성별·인종 등 d개의 범주형 속성 A^(t) 로 정의하고, 각 속성별 인구 비율 p_pop^(t)(a)를 사전 지정한다. 이후 실제 라벨러 풀 I (편향된 자발적 샘플)에서 속성 벡터 a_i 를 추출하고, 이 풀에 대해 LEXIMIN 알고리즘을 적용해 quota‑feasible 패널 집합 S와 그에 대한 선택 확률 분포 π_panel을 만든다. LEXIMIN은 최소 포함 확률을 최대화하는 레키시멀(max–min) 최적화를 수행해, 소수 집단이 거의 배제되지 않도록 보장한다.

Hard Panel은 π_panel에서 하나의 패널 S를 샘플링한 뒤, 해당 패널에 속한 라벨러만 사용해 D_S 를 구성하고, 각 라벨러 i∈S에 대해 N_i 개의 비교를 평균한 손실 L_i(θ)를 구한다. 전체 손실은 L_hard(θ|S)= (1/k)∑_{i∈S} L_i(θ) 로 정의되며, 이는 “한 사람, 한 목소리” 원칙을 그대로 반영한다. 기대값을 취하면 E_S

민주적 선호 최적화: 추첨 기반 RLHF로 가치 정렬

초록

상세 분석

댓글 및 학술 토론

의견 남기기