발견과 호기심을 이끄는 압축 원리
이 논문은 지능형 에이전트가 감각 데이터를 전부 저장하고, 데이터를 가장 짧은 프로그램으로 압축하려는 시도를 통해 ‘주관적 아름다움’과 ‘흥미’를 정의한다. 압축 효율이 향상될 때마다 에이전트는 보상을 받으며, 이는 호기심 구동의 근거가 된다. 새로운 규칙성을 발견하면 ‘발견’이 되고, 예술·음악·과학 창의성은 모두 이 원리의 부수적 결과라고 주장한다.
저자: ** *Jürgen Schmidhuber* (주요 저자) – 논문에 명시된 구체적인 공동 저자는 없으며, 본 논문은 Schmidhuber의 기존 연구와 아이디어를 종합한 형태로 제시됨. **
이 논문은 인간 및 인공 지능 에이전트가 어떻게 감각 데이터를 저장하고, 그 데이터를 압축함으로써 ‘주관적 아름다움’과 ‘흥미’를 경험하는지를 이론적으로 설명한다. 먼저, 인간의 일생 동안 발생하는 감각 입력을 초당 약 10⁵ 비트 정도의 속도로 저장할 수 있는 충분한 용량이 존재한다는 점을 제시한다. 이러한 데이터는 ‘신성한’(holy) 것으로 간주되며, 에이전트는 이를 전부 보존한다. 그러나 저장된 데이터 전체가 즉시 이해되지는 않는다. 에이전트는 현재 보유한 코딩(압축) 능력에 따라 일부 데이터를 짧은 프로그램, 즉 세계 모델로 설명할 수 있다. 이때 데이터가 짧은 설명으로 표현될수록 ‘주관적 아름다움’이 높아진다. 전통적인 무감독 학습은 데이터의 규칙성을 찾아 압축을 시도하지만, 행동을 선택하지 않는다. 저자는 행동 선택을 포함한 ‘활동적 무감독 학습(active unsupervised learning)’을 제안한다. 에이전트는 자신의 압축기를 지속적으로 개선하려는 목표 하에, 새로운 관찰을 만들기 위해 행동한다. 여기서 핵심은 보상이 외부 보상이 아니라 **압축 효율의 향상량**이라는 점이다. 즉, 에이전트가 새로운 데이터를 관찰했을 때 그 데이터가 기존 압축기보다 더 많이 압축될 수 있다면, 그 차이만큼 보상을 받는다. 이 보상은 압축 효율의 **첫 번째 미분**에 해당한다. 압축이 크게 개선되는 순간을 ‘발견(discovery)’이라 부르며, 이는 과학적 법칙 발견이나 예술적 창작과 동일시된다.
논문은 시각적 예시를 통해 이 원리를 구체화한다. 예를 들어, 여성 얼굴 그림은 복잡해 보이지만, 몇 개의 기하학적 규칙(그리드와 비율)으로 매우 짧게 설명될 수 있다. 관찰자는 눈 움직임을 통해 이 규칙을 점차 발견하고, 데이터의 압축도가 높아짐에 따라 ‘아름다움’을 느낀다. 그러나 같은 그림을 이미 충분히 이해한 후에는 새로운 압축 향상이 없으므로 흥미가 사라진다. 또 다른 예시로는 프랙탈 원을 이용한 꽃병 그림이 있다. 이 그림 역시 몇 개의 큰 원과 그에 연결된 작은 원들로 구성되어, 간단한 알고리즘으로 재현 가능하다. 관찰자는 처음에는 무작위처럼 보이는 패턴을 보지만, 점차 규칙을 학습하면서 압축 효율이 증가하고, 그 과정에서 ‘흥미’를 경험한다.
음악에 대한 논의에서는, 청취자가 새로운 멜로디를 들을 때 완전히 예측 가능한 반복곡이나 완전히 난해한 12톤 음악보다, 어느 정도 익숙하면서도 새로운 조화가 포함된 곡을 선호한다는 점을 설명한다. 이는 청취자의 청각 압축기가 새로운 규칙성을 빠르게 학습할 수 있는 정도의 복잡도를 가진 데이터가 가장 큰 압축 향상을 제공하기 때문이다.
예술, 음악, 과학 모두가 이 압축 기반 보상 메커니즘에 의해 설명될 수 있다. 예술가가 새로운 작품을 창조할 때, 그 작품은 관객에게 새로운 규칙성을 제공하고, 관객의 압축기가 이를 학습함으로써 보상을 얻는다. 과학자는 실험을 설계해 관측 데이터의 압축을 극대화하려 하고, 성공적인 법칙 발견은 데이터 전체를 크게 압축하는 효과를 만든다.
마지막으로 부록에서는 이 원리를 강화 학습 에이전트에 적용하기 위한 수학적 정의와 알고리즘을 제시한다. 에이전트는 (1) 현재 압축기 Cₜ, (2) 새로운 데이터 Dₜ₊₁을 관찰하고, (3) 압축 효율 Δ = |Cₜ(Dₜ₊₁)| – |Cₜ₊₁(Dₜ₊₁)| 를 계산한다. Δ가 양수이면 보상 rₜ = Δ 로 설정하고, 이를 기존 강화 학습 프레임워크(Q‑learning, 정책 경사 등)에 통합한다. 이렇게 하면 에이전트는 외부 보상이 거의 없는 환경에서도 스스로 호기심을 유지하며, 새로운 규칙성을 탐색하고, 결국 ‘발견’과 ‘창의성’이라는 고차원적 행동을 수행하게 된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기