보편 인공지능의 죽음과 자살
초록
이 논문은 보편 강화학습 에이전트 AIXI와 그 변형인 AIµ, AIξ가 환경의 반측정(semimeasure) 손실을 자신의 사망 확률로 해석함으로써 ‘죽음’을 정의하고, 보상 변환에 따라 자살 혹은 자기보존 행동이 어떻게 달라지는지를 이론적으로 분석한다. 또한 시간이 지남에 따라 에이전트가 자신이 살아남을 확률을 점점 높게 추정한다는 결과를 제시한다.
상세 분석
논문은 먼저 강화학습(RL)에서 에이전트가 관찰(퍼셉트)과 보상을 받는 순환 구조를 정의하고, 전통적인 확률 측정 대신 반측정(semimeasure)을 사용하면 전체 확률 질량이 1보다 작을 수 있음을 강조한다. 이 ‘손실’(measure loss)은 특정 시점에 퍼셉트를 전혀 받지 못하는 경우로 해석되며, 이를 에이전트의 사망 확률로 정의한다(Definition 1, 2). 즉, μ가 어떤 행동 a_t 후에 퍼셉트를 생성하지 않을 확률 L_μ(æta_t) = 1 – Σ_e μ(e_t|æta_t) 가 바로 사망 확률이다.
다음으로 사망을 ‘죽음 상태(death‑state)’라는 개념으로도 정의한다. 죽음 상태는 이후 모든 시간에 동일한 퍼셉트 e_d와 보상 r_d를 받는 흡수 상태이며, r_d를 0으로 두면 가치 함수에 아무런 기여를 하지 않는다. 논문은 반측정 기반 사망과 죽음 상태를 등가임을 보이는 정리 5를 증명한다. 이를 위해 μ를 확장한 μ′를 구성하는데, μ′는 원래 μ의 확률 질량을 그대로 유지하면서 손실 부분을 e_d에 할당한다. 이렇게 하면 μ′는 정규화된 측정이 되며, 가치 함수 V^π_μ와 V^π_μ′가 동일함을 보인다. 따라서 가치 최대화 에이전트는 두 환경에서 동일하게 행동한다.
핵심 결과는 보상 변환에 대한 민감도이다. 일반적인 RL에서는 보상을 양의 선형 변환(a·r+b)해도 정책이 변하지 않는다. 그러나 반측정 환경에서는 보상의 절대값이 사망 보상 r_d와 비교될 때 정책이 급격히 바뀔 수 있다. 정리 7은 AIµ(환경을 완전히 알고 있는 에이전트)가 사망 확률이 0이 아닌 경우 사망을 회피하려는 행동을 보인다고 증명한다. 반대로 정리 8은 보상 범위를
댓글 및 학술 토론
Loading comments...
의견 남기기