LLM 기반 환경·정책 공동진화로 열리는 무한 학습의 새 지평

COvolve는 대형 언어 모델(LLM)을 활용해 파이썬 코드 형태의 환경과 정책을 동시에 생성·진화시키는 프레임워크이다. 환경 디자이너와 정책 디자이너를 제로섬 2인 게임으로 모델링해, 환경은 정책의 약점을 드러내고 정책은 그에 맞춰 적응한다. 매 반복마다 실험적 보상 행렬을 만든 뒤 혼합전략 내시 균형(MSNE)을 계산해 메타‑정책을 도출함으로써 과거 환경을 잊지 않도록 보장한다. 도시 운전, 미로 풀이, 2D 네비게이션 등 세 도메인 실험…

저자: Alkis Sygkounas, Rishi Hazra, Andreas Persson

LLM 기반 환경·정책 공동진화로 열리는 무한 학습의 새 지평
본 논문은 지속적인 학습을 위한 환경과 정책의 자동 생성·진화를 목표로, 대형 언어 모델(LLM)을 이용해 파이썬 코드 형태의 환경과 정책을 동시에 설계하는 COvolve 프레임워크를 제안한다. 기존 강화학습 파이프라인은 고정된 시뮬레이터나 인간이 설계한 레벨에 의존해, 학습된 에이전트가 훈련 분포를 넘어서는 일반화에 한계를 보였다. 이러한 문제를 해결하기 위해 최근 연구는 비감독 환경 설계(UED)를 도입했지만, 대부분 무작위 변형이나 단순 휴리스틱에 의존해 레벨 다양성과 난이도 조절이 제한적이었다. COvolve는 두 LLM 기반 디자이너—환경 디자이너와 정책 디자이너—를 두고, 이들을 제로섬 2인 게임으로 모델링한다. 환경 디자이너는 정책 디자이너가 만든 정책을 테스트할 레벨을 생성하고, 정책 디자이너는 주어진 레벨을 해결할 코드를 만든다. 양자는 매 반복마다 서로의 출력을 평가해 보상 행렬 M을 만든다. 행렬의 원소 m_{ij}=U_{θ_j}(π_i) 는 정책 π_i 가 환경 θ_j 에서 얻는 기대 반환이다. 보상 행렬을 바탕으로 혼합전략 내시 균형(MSNE) p*를 계산한다. p*는 정책 집합에 대한 확률 분포로, 현재 환경 집합에 대해 최소‑최대 최적을 근사한다. 즉, p*를 따르는 메타‑정책은 가장 어려운 환경에서도 일정 수준 이상의 성능을 보장한다. 이는 정책 집합 전체의 다양성을 유지하면서, 환경이 새로운 레벨을 제시할 때 과거에 학습한 레벨을 잊지 않게 만든다. 환경 디자이너는 p*에 대해 평균 성능이 최소가 되는 레벨을 찾는다. 구체적으로 K개의 후보 레벨을 구조적 변이(예: 객체 추가·삭제, 파라미터 변동)로 생성하고, 각 후보에 대해 p*가 섞인 정책들로 평균 반환을 측정한다. 가장 낮은 평균 반환을 보이는 레벨을 새로운 환경 θ_{t+1} 으로 채택한다. 이렇게 하면 환경은 정책의 현재 약점을 정확히 겨냥하는 적대적 커리큘럼을 자동으로 형성한다. 알고리즘은 PSRO(Policy Space Response Oracles)의 아이디어를 차용해 인구 기반 진화를 수행한다. 매 반복에서 (1) 정책 후보를 구조적 변이와 선택을 통해 생성, (2) 모든 정책·환경 쌍을 평가해 M을 업데이트, (3) MSNE를 재계산해 메타‑정책을 갱신, (4) 환경 후보를 생성해 최악의 평균 성능을 가진 레벨을 선택한다. 이 과정을 T번 반복하면 정책·환경 인구가 동시에 복잡해지는 커리큘럼이 형성된다. 실험은 세 도메인에서 수행되었다. (i) 도시 운전 시뮬레이션에서는 교통량, 보행자 밀도, 날씨, 도로 구조 등이 단계별로 증가했으며, 정책은 점차 복잡한 상황에서도 안전하게 주행할 수 있게 되었다. (ii) 상징적 미로 풀이에서는 방 개수와 함정 종류가 늘어나면서, 정책은 더 긴 경로 탐색과 키·문 메커니즘을 학습했다. (iii) 2D 기하학적 네비게이션에서는 장애물 밀도와 목표 위치의 난이도가 상승했으며, 정책은 효율적인 경로 계획과 충돌 회피 능력을 강화했다. 각 도메인에서 COvolve가 생성한 레벨은 시각적으로 복잡도가 증가하는 것을 확인할 수 있었으며, 정량적으로는 환경 파라미터(예: 장애물 수, 교통량)의 평균값이 시간에 따라 꾸준히 상승했다. 또한, MSNE 기반 메타‑정책을 사용한 경우와 최신 정책만을 유지한 ‘Eurekaverse’ 방식(새 레벨에 파인튜닝 후 이전 레벨을 버리는)과 비교했을 때, 전자는 이전 레벨에 대한 성공률을 크게 유지하면서 새로운 레벨에서도 높은 성능을 보였다. 이는 MSNE가 정책 집합 전체의 최소 성능을 보장함을 실증한다. 논문의 한계로는 (1) LLM이 생성하는 파이썬 코드의 실행 안전성 및 디버깅 비용이 존재한다. 현재는 간단한 구문 검사와 제한된 실행 환경을 사용했지만, 복잡한 물리 엔진이나 외부 라이브러리를 포함하려면 보다 정교한 검증 파이프라인이 필요하다. (2) 보상 행렬의 크기가 인구 규모에 비례해 급증함에 따라 내시 균형을 정확히 계산하는 비용이 높다. 저자들은 선형 계획법(LP) 근사와 샘플링 기반 방법을 제안했지만, 대규모 실시간 학습에서는 추가 최적화가 요구된다. (3) 현재 실험은 2D 격자 기반 시뮬레이터에 국한돼 있어, 3D 물리 기반 시뮬레이션이나 실제 로봇에 적용하려면 코드 생성 프롬프트와 검증 체계를 확장해야 한다. 향후 연구 방향은 다음과 같다. 첫째, 프롬프트 엔지니어링과 도메인‑특화 템플릿을 결합해 LLM이 더 풍부하고 현실적인 환경·정책 코드를 생성하도록 한다. 둘째, 다중 에이전트·다중 목표 게임으로 확장해 협력·대립 관계를 동시에 모델링한다. 셋째, 메타‑학습과 결합해 MSNE를 온라인으로 빠르게 근사하는 알고리즘을 개발한다. 넷째, 형식적 검증 및 안전 검사 도구와 연계해 생성된 코드의 실행 오류와 안전 위험을 사전에 차단한다. 결론적으로 COvolve는 LLM 기반 코드 생성과 게임 이론적 안정성을 결합함으로써, 사전 정의된 작업 분포 없이도 자동으로 난이도가 상승하는 커리큘럼을 만들고, 정책이 과거 환경을 잊지 않도록 보장한다. 이는 지속적인 학습과 일반화를 위한 새로운 패러다임을 제시하며, 향후 다양한 시뮬레이션 및 실제 로봇 분야에 적용될 가능성을 열어준다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기