합리적 강화학습을 위한 공리와 확률 모델의 기하학적 해석
초록
이 논문은 완전한 의사결정자를 위한 일련의 직관적 공리를 제시하고, 이러한 공리를 만족하는 결정자는 내재적으로 환경에 대한 확률적 세계 모델을 가지고 있음을 보인다. Hahn‑Banach 정리를 활용해 유한·가산 경우를 구분하고, 계약(베팅) 형태의 선호를 통해 기대값 기반 의사결정을 기하학적으로 시각화한다.
상세 분석
본 연구는 강화학습 환경에서 에이전트가 “계약”(즉, 사건별 보상 벡터)들을 받아들이거나 거부하는 선택을 할 때, 그 선택이 일관된 선호 구조를 형성한다는 가정에서 출발한다. 저자는 먼저 Rationality I이라는 네 가지 공리를 정의한다. ① 모든 계약에 대해 ‘수용’, ‘거부’ 혹은 ‘양쪽 모두 가능’이라는 완전성을 요구하고, ② 수용과 거부가 서로 부정 관계에 있음을 명시한다. ③ 비음수 계수 λ,γ에 대해 두 수용 계약의 선형 결합도 수용한다는 폐쇄성(선형성) 조건을 두며, ④ 전부 양(또는 전부 음)인 보상 벡터는 각각 무조건 수용(또는 거부)한다는 방향성 공리를 둔다. 이러한 공리는 전통적인 선호 관계의 완전성·전이성·독립성·연속성과 일대일 대응한다.
공리 체계가 구축되면, Theorem 5를 통해 선형 함수 g(x)=∑ₖpₖxₖ가 존재함을 증명한다. 여기서 pₖ≥0이며 ∑ₖpₖ=1 로 정규화하면 확률분포가 된다. 즉, 계약을 수용하는 집합 Z는 폐반평면(closed half‑space)이며, 그 경계는 확률 가중치 p에 의해 정의된 초평면이다. 이는 “계약을 받아들일지 말지”라는 이진 판단이 기하학적 초평면에 의해 완전히 결정된다는 의미이며, 기대값이 양이면 수용, 음이면 거부한다는 직관적인 규칙을 제공한다.
가산 무한 사건 공간으로 확장할 때는 Hahn‑Banach 정리를 이용해 선형 연속 함수의 존재를 보장한다. 여기서 핵심은 선택 가능한 계약 공간(예: ℓ¹, ℓ^∞ 등)의 위상 구조가 어떤 종류의 가산 가법성을 허용하는가이다. 저자는 기존 문헌에서 가산 가법성을 얻기 위해 추가적인 ‘단조 연속성’ 가정을 도입한 것과 달리, 계약 공간 자체의 기하학적 성질(예: Banach space의 듀얼)만으로도 충분함을 보여준다.
또한, 조건부 확률과 마진 개념을 계약의 선형 연산을 통해 자연스럽게 도출한다. 두 사건 (i, j) 에 대한 계약 x_{i,j}를 고려하면, 기대값은 ∑{i,j} r{i,j} x_{i,j} 로 표현되고, 여기서 r_{i,j}는 기본 확률이다. 마진은 r_i = ∑j r{i,j} 로 정의되며, 이는 계약이 한 변수에만 의존할 때 기대값이 동일하게 유지됨을 보인다. 조건부 기대값 E
댓글 및 학술 토론
Loading comments...
의견 남기기