허용가능성 정렬

본 논문은 AI 정렬을 ‘허용가능한 행동·결정 선택’이라는 확률적·결정론적 특성으로 재정의하고, Monte Carlo 기반 정책 평가 체계인 MAP‑AI를 제안한다. 정책을 다수의 미래 시나리오에 걸쳐 시뮬레이션하고, 기대 효용·분산·꼬리 위험·오정렬 확률 등 분포적 지표로 정렬을 측정한다. 이를 통해 모델 자체를 수정하지 않고도 정책 행동을 동적으로 조정

초록

상세 요약

본 연구는 기존 AI 정렬 연구가 “정확도” 혹은 “목표 함수와의 거리”와 같은 정적·이진적 기준에 머무는 한계를 지적한다. 저자는 정렬을 ‘허용가능성(admissibility)’이라는 개념으로 전환함으로써, 불확실성 하에서 행동 선택이 실제 결과 분포에 미치는 영향을 정량화한다. 핵심 아이디어는 정책 π가 주어졌을 때, 가능한 세계 상태 ω∈Ω에 대해 Monte Carlo 시뮬레이션을 수행해 결과 변수 X(π,ω)의 확률분포 Pπ를 추정하고, 이 분포의 여러 통계량—예상 효용 E

초록

상세 요약

📜 논문 원문 (영문)