비대칭 최적성의 한계와 가능성: 약한 비대칭 최적 에이전트의 존재 증명
초록
이 논문은 인공 일반 지능(AGI) 에이전트가 “비대칭 최적성”(strong asymptotic optimality)과 “약한 비대칭 최적성”(weak asymptotic optimality)이라는 두 가지 장기 성능 기준을 만족할 수 있는지를 탐구한다. 모든 결정론적 가산 환경 클래스와 일반적인 할인 함수에 대해 강한 비대칭 최적성을 만족하는 에이전트는 존재하지 않으며, 약한 비대칭 최적성을 만족하는 에이전트도 계산 가능하지 않다. 그러나 특정 할인 함수(예: 기하급수적 할인)에서는 비계산적이지만 약한 비대칭 최적성을 달성하는 에이전트를 구성할 수 있음을 보인다.
상세 분석
논문은 먼저 “강한 비대칭 최적성(strong asymptotic optimality)”과 “약한 비대칭 최적성(weak asymptotic optimality)”을 엄밀히 정의한다. 강한 최적성은 모든 환경 µ∈M에 대해 에이전트 π가 시간 n→∞에서 최적 정책 π*µ의 가치와 차이가 0이 되는 것을 요구한다. 반면 약한 최적성은 동일한 차이가 평균적으로 0이 되면 충분하므로, 에이전트가 무한히 탐험하더라도 그 비율이 점점 감소하면 허용한다. 이러한 차이는 탐험‑활용 딜레마를 어떻게 해결하느냐에 직접 연결된다.
주요 부정 결과는 정리 8에 의해 제시된다. (1) 할인 함수 γ가 계산 가능하고, 환경 클래스 M이 모든 결정론적 가산 환경을 포함한다면 강한 비대칭 최적성을 만족하는 정책은 존재하지 않는다. 증명은 가상의 환경 µ를 구성해, 에이전트가 일정 구간 동안 ‘down’ 행동을 하면 보상이 0이 되지만, 그 구간이 충분히 길면 최적 가치와의 차이가 일정 수준 이하로 떨어지지 않음을 보인다. (2) 약한 비대칭 최적성을 만족하려면 정책 자체가 비계산적이어야 한다. 만약 정책이 계산 가능하면, 동일한 방법으로 정책을 속이는 환경 ν를 만들 수 있어 약한 최적성 조건을 위배한다. (3) 할인 함수가 γk=1/(k(k+1))와 같이 효과적 horizon가 선형적으로 증가하는 경우, 심지어 비계산적 정책도 약한 비대칭 최적성을 가질 수 없음을 보인다. 이는 할인 함수가 에이전트의 미래 시점에 대한 가중치를 얼마나 빠르게 감소시키는가가 탐험 가능성에 결정적 영향을 미친다.
긍정적인 측면에서는 기하급수적 할인(γk=γ^k, 0<γ<1)과 같은 ‘빠르게 수렴하는’ 할인 함수에 대해 비계산적이지만 약한 비대칭 최적성을 만족하는 정책을 제시한다. 이 정책은 AIXI와 유사하게 베이즈 모델을 유지하면서, ε‑탐험 혹은 UCB와 같은 탐험 보너스를 주기적으로 삽입한다. 핵심 아이디어는 충분히 깊고 빈번한 탐험을 통해 환경을 정확히 추정하되, 탐험 빈도는 할인에 의해 점차 감소시켜 장기 평균 보상이 최적에 근접하도록 하는 것이다.
또한 논문은 강한 최적성의 요구가 지나치게 강하다는 점을 강조한다. 실제 인간이나 대부분의 학습 시스템은 완전한 탐험 중단 없이도 평균적으로 최적에 수렴한다는 점에서 약한 최적성이 더 현실적이다. 하지만 약한 최적성조차도 할인 함수에 따라 불가능할 수 있음을 보여줌으로써, AGI 설계 시 ‘얼마나 멀리 미래를 내다볼 것인가’가 근본적인 설계 변수임을 시사한다.
마지막으로, 이론적 결과가 실제 알고리즘 설계에 미치는 함의를 논의한다. 현재 널리 쓰이는 PAC‑MDP 학습 이론은 유한 상태·전이 구조를 전제로 하지만, 본 논문은 전혀 그런 제한 없이 일반적인 결정론적 가산 환경을 다룬다. 따라서 기존의 수렴 보장은 환경이 충분히 ‘잘 행동한다’는 전제에 의존한다는 점을 비판하고, 비계산적 탐험 보너스가 필요함을 강조한다. 이는 실제 구현 가능한 근사 알고리즘(예: 메타‑러닝, 탐험‑활용 스케줄링) 개발에 새로운 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기