‘압축‑진보가 이끄는 호기심: 아름다움·놀라움·창의성·과학·예술을 하나의 원리로 통합한다’
📝 Abstract
I argue that data becomes temporarily interesting by itself to some self-improving, but computationally limited, subjective observer once he learns to predict or compress the data in a better way, thus making it subjectively simpler and more beautiful. Curiosity is the desire to create or discover more non-random, non-arbitrary, regular data that is novel and surprising not in the traditional sense of Boltzmann and Shannon but in the sense that it allows for compression progress because its regularity was not yet known. This drive maximizes interestingness, the first derivative of subjective beauty or compressibility, that is, the steepness of the learning curve. It motivates exploring infants, pure mathematicians, composers, artists, dancers, comedians, yourself, and (since 1990) artificial systems.
💡 Analysis
**
1. 이론적 기여
| 구분 | 내용 | 의의 |
|---|---|---|
| 압축‑진보 정의 | 흥미성을 “주관적 아름다움의 미분”으로 정의 | 아름다움(정규성)과 호기심(새로운 정규성 탐색)을 수학적으로 연결 |
| 주관적 관찰자 모델 | 제한된 계산 능력·자기‑개선형 압축기 | 실제 인간 뇌와 인공 시스템의 자원 제약을 반영 |
| 강화학습 기반 호기심 메커니즘 | 압축‑진보 → 내재 보상 → RL 최적화 | 외부 보상이 희박한 환경에서도 목표‑지향적 탐색을 가능하게 함 |
| 다학제 통합 | 물리학, 인지발달, 예술, 유머 등을 동일 원리로 설명 | “통합 이론”이라는 큰 그림을 제시, 기존 분야 간 장벽을 낮춤 |
2. 논문의 강점
- 원리의 단순성·보편성
- “데이터를 더 잘 압축한다”는 하나의 목표만으로 복잡한 현상을 설명한다는 점이 매우 매력적이다.
- 구현 가능성
- 구체적인 알고리즘(예: 적응형 신경망, 메타‑RL)과 실험 설계(이미지 압축 실험) 제시로 이론을 바로 실험에 옮길 수 있다.
- 인간·인공 지능 연결 고리
- 피아제의 동화·조절 개념을 압축‑진보와 연결, 현대 딥러닝·RL과 자연스럽게 매핑한다.
- 예측 가능성 검증
- “압축‑진보가 큰 영역 → 높은 호기심 보상”이라는 정량적 예측을 심리·신경과학 실험으로 검증 가능하게 만든다.
3. 한계·비판점
| 영역 | 비판 | 개선 방안 |
|---|---|---|
| 수학적 엄밀성 | 압축‑진보를 “비트 절감량”으로 정의했지만, 실제 압축기(예: 딥러닝 모델)의 복잡도와 계산 비용을 충분히 고려하지 않음 | 압축 효율과 연산 비용을 동시에 최적화하는 다목적 보상 설계 필요 |
| 주관성 문제 | “주관적 아름다움”을 관찰자별 압축기 상태에 의존하게 함 → 동일 데이터에 대한 개인 차이 과다 반영 가능 | 다수 관찰자(군집) 모델링·베이지안 평균화로 개인 차이를 정규화 |
| 외부 보상과의 상호작용 | 호기심 보상이 외부 보상과 충돌할 경우(예: 위험한 탐색) 대비 메커니즘이 미흡 | 안전 제약(risk‑sensitive RL) 혹은 보상 가중치 조정 메커니즘 도입 |
| 실험 검증 부족 | 현재 제시된 실험은 이미지 압축 시뮬레이션 수준에 머무름 | 인간 피험자를 대상으로 뇌파·fMRI와 행동 데이터를 동시에 측정하는 종합 실험 필요 |
| 계산 자원 가정 | “전체 감각 기록 저장”을 전제하지만, 실제 로봇·에이전트는 메모리·전력 제한이 심함 | 샘플링·핵심 데이터 선택 전략(예: 경험 재현 버퍼)과 압축‑우선 순위 정책을 명시적으로 설계 |
4. 기존 연구와의 관계
- Schmidhuber (1991‑2005): 인공 호기심·내재 보상 개념의 선구자. 본 논문은 이를 압축‑진보라는 보다 구체적·측정 가능한 형태로 정형화한다.
- Bengio et al., 2015 “Curiosity‑driven Exploration”: 정보 이득(Information Gain) 기반 보상과 차별화—본 논문은 알고리즘적 복잡도 감소에 초점을 맞춘다.
- Piaget (1962): 동화·조절을 압축·재압축 과정에 매핑, 심리학적 메타포를 계산적 모델로 전이.
- Kolmogorov Complexity / Minimum Description Length (MDL): 압축‑진보는 MDL의 동적 버전으로, 시간에 따라 변화하는 모델 복잡도를 추적한다.
5. 실용적·학문적 파급 효과
인공 지능
- 희소 보상 환경(우주 탐사, 장기 전략 게임 등)에서 탐색 효율을 크게 향상시킬 수 있다.
- Meta‑Learning과 결합해 “학습을 학습하는 학습기”를 자동으로 진화시키는 기반 제공.
인지·신경과학
- 뇌의 ‘압축‑진보’ 신호(예: 전두엽·해마 활동)와 호기심 행동 사이의 상관관계를 검증하는 새로운 실험 설계 가능.
예술·디자인
- 창작 도구에 압축‑진보 기반 피드백을 삽입해 작가가 “새로운 규칙”을 발견하도록 유도, 창의적 프로세스 가속화.
교육
- 학습 콘텐츠를 점진적 압축‑진보 수준에 맞춰 설계하면 학습자의 호기심과 몰입을 최적화할 수 있다.
6. 향후 연구 방향
- 다중 압축기 앙상블: 서로 다른 모델(시계열, 이미지, 언어) 간 압축‑진보를 통합해 멀티모달 호기심을 구현.
- 안전·윤리적 제어: 위험한 탐색을 억제하는 제약 기반 RL과 압축‑진보 보상의 균형 메커니즘 개발.
- 실시간 메타‑보상 학습: 압축‑진보 자체를 메타‑보상으로 학습해, 환경 변화에 따라 보상 가중치를 자동 조정.
- 뇌‑컴퓨터 인터페이스: 인간 뇌의 압축‑진보 신호를 실시간으로 측정·피드백하여 인공‑인간 협업 시스템 구축.
**
📄 Content
전체 우주의 역사가 계산 가능하고[123,124] 이에 반대되는 증거가 없으며[84] 가장 단순한 설명은 그것을 계산하는 가장 짧은 프로그램일 것이다[65,70]. 안타깝게도 주어진 데이터를 계산하는 가장 짧은 프로그램을 찾는 일반적인 방법은 존재하지 않는다[34,106,107,37]. 따라서 물리학자들은 전통적으로 한 번에 세계의 아주 작은 측면만을 분석하면서, 이전에 알려진 최고의 법칙보다 더 나은 설명을 제공하는 단순한 법칙을 찾으려 노력해 왔다. 이는 본질적으로 관측된 데이터를 이전에 알려진 최고의 프로그램보다 더 잘 압축하는 프로그램을 찾는 과정이다. 예를 들어, 뉴턴의 중력 법칙은 떨어지는 사과와 기타 물체들의 관측 시퀀스를 크게 압축할 수 있는 짧은 코드 조각으로 표현될 수 있다. 비록 이 법칙이 양자 수준에서 사과 원자의 요동을 설명하지 못하고 예측 능력이 제한적이지만, 법칙이 성립한다는 가정 하에 높은 확률로 예측 가능한 사건에 짧은 코드를 할당함으로써 데이터 스트림을 인코딩하는 데 필요한 비트를 크게 줄인다[28]. 아인슈타인의 일반 상대성 이론은 뉴턴의 예측에서 벗어난 많은 현상을 간결하게 설명함으로써 추가적인 압축 효과를 제공한다.
대부분의 물리학자는 아직도 더 큰 진보의 여지가 있다고 믿는다. 그러나 물리학자만이 관측의 주관적 압축성을 개선하고자 하는 것은 아니다. 과거에 대한 짧고 단순한 설명은 일반적으로 반복적인 규칙성을 반영하며, 이는 미래를 예측하는 데에도 도움이 된다. 따라서 미래 목표를 달성하려는 모든 지능형 시스템은 행동에 따른 원시 감각 입력의 역사를 압축함으로써 계획 능력을 향상시키려는 동기를 가져야 한다.
오래전 피아제[49]는 아이들의 탐구적 학습 행동을 동화(새로운 입력을 기존 스키마에 끼워 넣는 과정—압축의 일종)와 조절(기존 스키마를 새로운 입력에 맞게 바꾸는 과정—압축 개선의 일종)이라는 개념으로 설명했지만, 그의 비공식적인 아이디어는 컴퓨터 구현을 위한 충분한 형식적 세부사항을 제공하지 못했다. 인공 시스템에서 압축 진행 구동을 어떻게 모델링할 수 있을까? 초기에는 알려지지 않은 세계와 상호작용하는 능동적인 에이전트를 생각해 보자. 우리는 인공 호기심(1990‑2008) 연구에서 제시된 일반 강화학습(RL) 프레임워크[57,58,61,59,60,108,68,72,76,81,88,87,89]를 이용해 에이전트가 추가적인 압축 진행과 예측 가능성을 제공하는 데이터를 발견하도록 할 수 있다. 이 프레임워크는 외부 보상이 희박하거나 전혀 없을 때도, 행동에 의해 생성되는 새로운 규칙성을 발견하는 행동에 대해 내재적 보상 혹은 호기심 보상을 제공함으로써 에이전트를 세계에 대한 더 나은 이해로 이끈다.
1.2 절에서는 다음을 기반으로 한 알고리즘적 프레임워크를 비공식적으로 설명한다.
- 지속적으로 성장하는 데이터 히스토리를 압축하거나 예측하는 점진적으로 개선되는 압축기,
- 압축기의 진행 정도를 계산하기 위한 계산 가능한 측정법(내재적 보상 계산용),
- 보상을 행동 시퀀스로 변환해 미래 보상을 최대화하도록 하는 보상 최적화기 또는 강화학습자.
구체적인 수식과 이론적 배경은 부록에 남겨 두며, 부록에서는 이산 시간 구현 방식을 상세히 다룬다. 섹션 1.3에서는 외부 보상(뇌 밖에서 발생해 ‘외부 몸’을 제어하는 보상)과의 관계를 논의하고, 섹션 2에서는 지능과 인지의 핵심 요소들—새로움·놀라움·흥미 탐지, 무감독 주의 전환, 아름다움에 대한 주관적 인식, 호기심, 창의성, 예술, 과학, 음악, 농담—이 모두 위 프레임워크의 자연스러운 부산물임을 보여준다. 특히 우리는 전통적인 볼츠만·샤논식 ‘놀라움’ 개념을 부정하고, 과학과 예술이 이전에 알려지지 않은 방식으로 데이터를 압축하려는 욕구의 부산물이라고 주장한다. 섹션 3에서는 기존 구현 사례들을 개관하고, 섹션 4에서는 인간 관찰자를 위한 이미지에 이 이론을 적용해 주관적 압축성이 낮은 상태에서 높은 상태로 전이되는 학습 과정을 시연한다. 마지막으로 섹션 5에서는 이전 구현을 개선하는 방안과 심리·신경과학 분야에서 이론을 검증할 실험적 예측들을 제시한다.
핵심 원칙
다음은 이전 연구[57,58,61,59,60,108,68,72,76,81,88,87,89]에서 도출된 간단한 알고리즘 원칙이다. 형식적 세부사항은 부록에 맡기고, 섹션 2에서 논의한 바와 같이 이 원칙들은 인간과 같은 지능형 에이전트의 여러 현상을 최소한 질적으로 설명한다. 이는 인지 로봇 및 기타 인공 시스템에 구현·평가할 동기를 제공한다.
모든 것을 저장한다.
세계와 상호작용하면서 행동·감각 관측·보상 신호를 포함한 원시 히스토리 전체를 저장한다. 데이터는 ‘성스러운’ 존재이며, 세계에 대해 알 수 있는 유일한 근거이기 때문이다. 전체 데이터 저장이 비현실적이지 않다는 점을 보여 주자. 인간의 평균 수명은 약 (3\times10^{9}) 초이며, 뇌는 약 (10^{10}) 개의 뉴런, 각 뉴런당 평균 (10^{4}) 개의 시냅스를 가진다. 뇌 용량의 절반만 원시 데이터 저장에 사용하고, 시냅스당 최대 6 비트만 저장한다 해도 초당 약 (10^{5}) 비트, 즉 일반적인 영화 한 편을 저장할 수 있는 수준이다. 현재 상용 기술 시스템의 저장 용량은 곧 이를 초과할 것이므로, 데이터를 저장할 수 있다면 절대로 버리지 말라는 것이 핵심이다.주관적 압축성을 개선한다.
데이터 히스토리의 어떤 규칙성이라도 압축에 활용할 수 있다. 압축된 데이터는 그 자체가 단순화된 설명이 된다. 따라서 에이전트는 적응형 압축 알고리즘에 일정 연산 시간을 할당해 데이터를 부분적으로 압축하도록 해야 한다. 예를 들어, 적응형 신경망[8]은 과거 데이터를 다른 과거 데이터로부터 예측·역예측함으로써 전체를 인코딩하는 데 필요한 비트를 점진적으로 감소시킬 수 있다(부록 A.3, A.5 참고).압축기의 개선을 모니터링한다. 압축기가 히스토리를 더 적은 비트로 인코딩하게 될 때마다, 학습 진행 혹은 압축 진행에 비례하는 내재적 보상(호기심 보상)을 생성한다. 즉, 저장된 비트 수의 감소량이 보상의 크기가 된다(부록 A.5, A.6). 그런 보상을 최대화하도록 일반 강화학습(RL) 알고리즘을 사용한다. 이 RL 알고리즘은 현재 적응형 압축기의 상태를 관찰할 수 있어야 한다.
좋은 RL 알고리즘은 압축기의 학습 곡선 기울기를 최대화하는 행동을 선택한다. 즉, 아직 알려지지 않았지만 학습을 통해 규칙성을 발견할 수 있는 세계의 측면에 에이전트의 주의와 학습 능력을 집중시킨다. 이는 능동적 무감독 학습이라 부를 수 있으며, 세계가 어떻게 작동하는지를 파악하는 데 큰 도움이 된다(부록 A.7‑A.10).
위 프레임워크는 호기심·창의적 시스템의 목표를 정의할 뿐, 특정 압축기·예측기·RL 알고리즘을 지정하지는 않는다. 다양한 구현 사례와 선택 가능한 구성 요소들은 이후에 논의한다.
외부 보상과의 관계
실제 인지 시스템의 궁극적 목표는 호기심을 만족시키는 것만이 아니라 외부에서 주어진 문제를 해결하는 것이다. 모든 형식화 가능한 문제는 ‘에이전트가 제한된(또는 전혀 모르는) 환경에서 행동하며, 유한한 수명 동안 기대되는 외부 보상을 최대화한다’는 RL 문제로 재표현될 수 있다. 2000년대 이후 등장한 보편적 강화학습 알고리즘(보편적 문제 해결자·보편적 인공지능, 부록 A.8, A.9)들은 이론적으로 최적이지만 실용성은 보장되지 않는다[29,79,82‑86,92]. 이러한 보편적 방법들은 학습·압축·호기심이 도움이 될 경우 자동으로 이를 발견하고 활용한다. 그렇다면 왜 굳이 호기심 기반 실험 프레임워크를 명시적으로 기술해야 할까?한 가지 답은 보편적 접근법이 문제 독립적인 상수적 지연을 이론적 복잡도 표기법에 숨겨버린다. 실제 환경에서는 에이전트가 초당 10 조(10 trillion) 정도의 기본 연산만 수행할 수 있다고 가정했을 때, 외부 보상이 매우 희박한 상황에서 어떻게 하면 이 제한된 연산을 가장 효율적으로 사용해 보편적 AI의 이론적 한계에 가깝게 접근할 수 있을까 하는 문제가 남는다. 본 논문의 전제는 호기심 구동이 제한된 자원 하에서 희박한 보상 환경을 다루는 가장 일반적·유용한 메커니즘이므로, 이를 사전 배선(pre‑wired) 해 두어(처음부터 학습하지 않고) 계산 시간을 크게 절감해야 한다는 것이다. 이 접근법은 “과거에 대한 더 좋은 설명은 미래를 더 잘 예측하게 하고, 외부 과제 해결을 가속한다”는 가정에 기반한다(‘호기심이 해를 끼쳐 고양이를 죽인다’는 가능성은 무시한다).
지능·인지의 부산물
내부 표현과 자기 인식
압축기를 (예: 예측 신경망) 사용해 관측 히스토리를 압축하면, 반복적으로 나타나는 패턴에 대한 내부 표현(심볼)이 자동으로 생성된다. 예측 가능성이 제한적이더라도, 높은 확률로 예측 가능한 사건에 짧은 코드를 할당함으로써 효율적인 압축이 가능하다[28,95]. 예를 들어, “태양은 매일 뜬다”는 사실을 압축기는 ‘daylight’라는 내부 심볼로 표현함으로써 원시 데이터를 그대로 저장하는 것보다 훨씬 적은 비트로 기록한다. 실제로 예측 신경망은 학습 오류를 최소화하는 과정에서 이러한 계층적·내부 코드를 자연스럽게 형성한다.
에이전트의 모든 행동·감각 입력에는 에이전트 자체가 포함된다. 전체 히스토리를 효율적으로 인코딩하려면 에이전트 자신을 나타내는 내부 심볼(예: 특정 신경 활동 패턴)이 필요하다. 이 표현이 행동에 의해 활성화될 때, 에이전트는 자기 인식(self‑awareness) 혹은 **의식(consciousness)**을 갖게 된다. 이 설명은 의식에 대한 기존 복잡한 이론들을 단순화하면서도 직관에 크게 위배되지 않는다. 본 논문에서는 의식을 별도의 신비로운 개념으로 다루지 않는다; 오히려
이 글은 AI가 자동 번역 및 요약한 내용입니다.