AI 정렬을 드러낸 선택: 루스 모델을 통한 인간‑AI 선호 식별
본 논문은 인간 사용자를 대신해 선택을 수행하는 AI의 선호와 인간의 선호가 얼마나 일치하는지를, 인간·AI 선택을 각각 루스(Luce) 규칙의 혼합으로 모델링한 “Luce Alignment Model(LAM)”을 이용해 밝혀낸다. 실험실(setting)과 현장(setting) 두 경우에서 파라미터(인간·AI 효용 u, v와 컴플라이언스 α)를 식별 가능함을 증명하고, IIA 위반을 활용한 폐쇄형 식별식과 라벨 교환에 대한 한계를 제시한다.
저자: Elchin Suleymanov
본 논문은 인간 사용자가 AI에게 선택을 위임하는 상황에서, AI가 인간의 선호를 실제로 구현하고 있는지를 ‘드러낸 선택(revealed preference)’ 관점에서 분석한다. 저자는 인간 효용 u와 AI 자체 효용 v를 각각 루스(Luce) 선택 규칙에 따라 확률화하고, AI의 선택 확률을 두 규칙의 가중 평균으로 모델링한 ‘Luce Alignment Model(LAM)’을 제안한다. LAM은 다음과 같이 정의된다. ρ_AI(x,S)=α·u(x)/∑_{y∈S}u(y)+(1‑α)·v(x)/∑_{y∈S}v(y), 여기서 α∈
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기