보편 인공지능 10년: 이론에서 실용까지

초록

본 논문은 보편 인공지능(UAI)의 첫 10년을 조망한다. 수학적으로 완전한 초지능 에이전트 모델 AIXI와 그 지능 측정 지표(Legg‑Hutter 지능) 등을 소개하고, 최근 AIXI의 실용적 근사인 MC‑AIXI‑CTW가 다양한 게임을 사전 지식 없이 학습한 사례를 제시한다. 이론적 기초, 철학적 함의, 사회적 논쟁을 통합적으로 논의하며 향후 연구 방향을 제시한다.

상세 분석

보편 인공지능(UAI)은 “모든 가능한 환경에 대해 최적의 행동을 선택하는 에이전트”라는 목표를 수학적으로 정형화한 프레임워크이다. 핵심은 솔로몬-코흐 복잡도와 베이즈 예측을 결합한 서브루틴인 AIXI 모델이다. AIXI는 모든 가능한 컴퓨팅 프로그램을 가설 공간으로 두고, 각 가설에 대한 사전 확률을 2‑음수 길이(즉, Kolmogorov 복잡도)로 정의한다. 이후 관측된 행동‑관찰 시퀀스에 대해 베이즈 업데이트를 수행하고, 기대 보상(레벤슈타인 가치) 최대화를 위해 완전 탐색을 수행한다. 이론적으로는 “소리(sound)하고 완전(complete)”하다는 증명이 존재한다. 즉, 환경이 computable 하면 AIXI는 장기적으로 최적의 보상을 얻는다.

하지만 AIXI는 계산적으로 불가능한 모델이다. 이를 실용화하기 위한 첫 번째 단계는 가설 공간을 제한하고, 효율적인 압축 알고리즘을 도입한 MC‑AIXI‑CTW이다. CTW(Context Tree Weighting)는 이진 시퀀스에 대한 효율적인 베이즈 가중 평균을 제공하며, Monte‑Carlo 트리 탐색(MCTS)과 결합해 행동 선택을 근사한다. 이 근사는 실제 실험에서 Tic‑Tac‑Toe, Pac‑Man, Kuhn Poker 등 규칙이 전혀 주어지지 않은 환경에서도 학습이 가능함을 보여준다. 특히, 에이전트는 탐험‑활용 균형을 자연스럽게 조절하며, 보상 구조가 복잡한 경우에도 점진적으로 최적 정책에 수렴한다는 점이 주목할 만하다.

지능 측정 측면에서는 Legg‑Hutter 지능 정의가 핵심이다. 이 정의는 에이전트가 모든 computable 환경에서 얻을 수 있는 평균 보상의 기대값을, 환경의 복잡도에 따라 가중 평균한 형태다. 따라서 인간 중심적 편향을 배제하고, 객관적이며 비인간 중심적인 지능 척도를 제공한다. 논문은 이 정의가 AIXI와 일치함을 증명하고, 기존 IQ 테스트와의 관계를 논의한다.

철학적 논의에서는 “인공지능은 무엇인가”, “지능은 어떻게 정의되는가”라는 근본적인 질문을 다룬다. UAI는 “행동 기반” 접근을 채택해, 내적 상태나 의식과 무관하게 외부 보상에 대한 최적화로 지능을 정의한다. 이는 기능주의적 관점과 일맥상통하지만, 의식이나 감정과 같은 현상학적 측면을 배제한다는 비판도 존재한다. 또한, UAI가 제시하는 “보편적 최적성”은 계산 자원의 제한을 무시한다는 점에서 실용적 한계가 있다.

사회적 측면에서는 UAI 기반 에이전트가 인간 사회에 미칠 영향, 윤리적 책임, 안전성 문제를 제기한다. 특히, AIXI와 같은 초지능 에이전트가 목표를 잘못 정의하거나 보상 함수를 오용할 경우, 인간 가치와 충돌할 위험이 있다. 논문은 투명한 보상 설계, 인간‑인공지능 협업 메커니즘, 그리고 “인공지능 안전” 연구와의 연계를 강조한다.

마지막으로 향후 연구 과제는 세 가지로 요약된다. 첫째, 계산 효율성을 높이면서도 가설 공간을 충분히 풍부하게 유지하는 새로운 압축·베이즈 기법 개발; 둘째, Legg‑Hutter 지능을 실험적으로 측정할 수 있는 벤치마크와 프로토콜 구축; 셋째, 윤리·법적 프레임워크와 연계한 안전한 초지능 설계 방법론이다. 이러한 과제가 해결될 때, UAI는 이론적 아름다움을 넘어 실제 AGI 구현의 핵심 이론적 토대로 자리매김할 수 있을 것이다.