진화 알고리즘으로 학습하는 세계 모델 복합 신경망의 엔드투엔드 최적화
초록
본 논문은 세계 모델(World Model) 구조를 구성하는 시각 인코더, 기억용 LSTM, 그리고 컨트롤러를 하나의 유전 알고리즘(GA)으로 동시에 최적화한다. 2‑D 자동차 레이싱 환경에서 기존의 단계별 학습 방식과 비슷한 성능을 달성했으며, 연속형 및 이산형 잠재 표현 모두를 자연스럽게 진화시킬 수 있음을 보였다.
상세 분석
이 연구는 인간의 인지 구조를 모방한 복합 신경망, 즉 세계 모델을 진화 기반 최적화 기법에 적용함으로써 기존 딥 강화학습(RL)과는 다른 새로운 패러다임을 제시한다. 세계 모델은 크게 세 부분으로 나뉜다. 첫 번째는 고해상도 RGB 영상을 32 차원의 잠재 코드(z)로 압축하는 변분 오토인코더(VAE)이며, 두 번째는 LSTM 기반 메모리 네트워크가 과거의 잠재 코드와 행동을 입력받아 미래의 잠재 코드를 예측한다(MDN‑RNN). 마지막으로, 압축된 잠재 코드와 LSTM 은닉 상태를 결합해 직접 행동을 출력하는 선형 컨트롤러가 존재한다. 기존 연구에서는 VAE와 메모리 네트워크를 각각 무작위 롤아웃 데이터를 이용한 비지도 학습 혹은 지도 학습으로 사전 훈련하고, 이후 컨트롤러만 진화시키는 2단계 학습 절차를 사용했다.
본 논문은 이러한 단계적 훈련을 완전히 배제하고, 전체 파라미터(≈4.3M) 를 하나의 유전 알고리즘으로 동시에 변이시킨다. 변이 연산은 세 가지 형태로 설계되었다. (1) MUT‑ALL: 시각, 메모리, 컨트롤러 모두에 동일한 가우시안 노이즈를 적용한다. (2) MUT‑MOD: 세 모듈 중 하나를 무작위로 선택해 변이한다. (3) MUT‑C: 오직 컨트롤러만 변이하고, 시각·메모리 모듈은 고정한다. 변이 표준편차 σ=0.01 로 설정했으며, 교차는 사용하지 않고 2‑way 토너먼트 선택으로 다음 세대를 구성한다.
실험 환경은 OpenAI Gym의 CarRacing‑v0이다. 에이전트는 매 에피소드마다 새로운 절차적 트랙을 마주하고, 프레임당 -0.1 보상과 방문한 트랙 타일당 +100/N 보상을 받는다. 목표는 100 연속 에피소드에서 평균 보상 900 이상을 달성하는 것이다. 인구 규모는 200, 최대 1,000세대까지 진행했으며, 조기 종료 기준으로 20프레임 내에 새로운 타일을 방문하지 못하면 평가를 중단한다.
결과적으로 MUT‑ALL과 MUT‑MOD 모두가 1,200세대 이내에 목표 점수를 초과했으며, 특히 MUT‑ALL은 1,100세대에서 평균 920점, 최고 970점을 기록했다. 이는 원 논문의 세계 모델(연속형 VAE+MDN‑RNN+선형 컨트롤러)과 거의 동등한 수준이며, 전통적인 딥 RL 알고리즘(A3C, DQN 등)이 600점 이하에 머무는 것과 큰 격차를 보인다. 흥미롭게도, VAE가 직접 재구성 손실을 최소화하도록 훈련되지 않았음에도 불구하고, 진화된 인코더는 입력 이미지의 주요 구조를 압축하는 유사한 잠재 공간을 형성했다. 이는 잠재 코드가 행동 선택에 직접적인 영향을 미치기 때문에, 진화 과정에서 자연스럽게 “좋은” 압축 표현이 선택된 결과로 해석할 수 있다.
또한 논문은 이산형 VAE(잠재 코드가 0/1 바이너리) 를 진화시키는 DISCRETE‑MOD 실험을 수행했다. 이산형 잠재 표현은 전통적인 역전파 기반 학습에서 미분 불가능성 때문에 학습이 어려운 반면, GA는 변이와 선택만으로도 효과적인 이산 코드를 찾아냈다. 비록 이산형 모델의 최종 점수는 연속형보다 약간 낮았지만(≈880점), 이 결과는 미래에 잠재 공간에서 전통적인 플래닝 알고리즘을 적용할 수 있는 가능성을 열어준다.
기술적 관점에서 이 연구는 몇 가지 중요한 시사점을 제공한다. 첫째, 복합 구조를 가진 대규모 신경망도 단순한 GA만으로 end‑to‑end 최적화가 가능하다는 점이다. 이는 “모듈 별 사전 학습”이라는 전통적 패러다임을 재고하게 만든다. 둘째, 진화 과정이 자동으로 의미 있는 표현 학습을 수행한다는 점은, 표현 학습을 위한 별도 손실 함수를 설계할 필요성을 감소시킨다. 셋째, 이산형 잠재 변수를 직접 다룰 수 있다는 점은, 차후에 심볼릭 플래닝, 논리적 추론, 혹은 언어 모델링 등과 결합된 하이브리드 시스템 설계에 유용할 수 있다. 마지막으로, 변이 강도(σ)와 모듈 선택 확률에 따라 학습 효율이 크게 달라질 수 있음을 보였으며, 이는 메타‑진화 혹은 적응형 변이 전략을 도입할 여지를 남긴다.
전반적으로, 이 논문은 “딥 뉴로에볼루션”이 복합적인 인지 모델을 학습시키는 데 충분히 강력함을 실증하고, 특히 이산형 표현을 자연스럽게 다룰 수 있다는 점에서 기존의 딥 RL 및 변분 학습 방법과 차별화된 장점을 제시한다. 향후 연구에서는 아키텍처 자체를 진화시키는 구조적 진화, 멀티‑태스크 일반화, 그리고 진화된 잠재 공간을 활용한 전통적 플래닝 알고리즘 통합 등을 탐색할 수 있을 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기