코드샤프: 계층형 보상 프로그램으로 스킬을 무한히 탐색하고 진화시키다
초록
CODE‑SHARP은 파운데이션 모델을 이용해 파이썬 코드 형태의 보상 함수를 자동 생성·수정하고, 이를 계층형 그래프로 관리한다. 생성된 SHARP 스킬을 목표‑조건부 에이전트가 학습함으로써 Craftax 환경에서 점점 더 긴 목표를 달성하고, 고수준 플래너와 결합하면 기존 전문가 정책보다 134 % 이상 높은 성능을 보인다.
상세 분석
CODE‑SHARP은 “스킬을 계층형 보상 프로그램(Sharp)으로 표현”한다는 혁신적인 아이디어를 중심으로 설계되었다. 각 Sharp는 파이썬 함수 형태로 구현되며, 성공 조건 ϕ와 환경 조건 c_i, 그리고 전제 스킬 u_i 를 명시한다. 조건이 충족되지 않으면 전제 스킬을 호출해 단계적으로 목표에 도달하도록 설계돼, 전통적인 옵션 프레임워크를 코드 수준에서 구현한 셈이다.
핵심 메커니즘은 두 개의 파운데이션 모델 기반 루프다. 첫 번째 루프는 새로운 Sharp를 “제안‑구현‑판정” 파이프라인을 통해 생성한다. 제안 단계에서는 현재 스킬 그래프, 실패 기록, 환경 소스코드, 튜토리얼 등을 컨텍스트로 제공해 다양성을 확보한다. 구현 단계는 템플릿 기반 코드 생성기로 제안된 의사코드를 실행 가능한 파이썬으로 변환한다. 판정 단계는 (1) 코드 컴파일 여부, (2) 현재 에이전트가 학습 가능성, (3) 기존 스킬과의 차별성을 평가해 두 개의 최우수 후보만 환경에 투입한다.
두 번째 루프는 기존 Sharp를 “돌연변이” 시켜 성능을 향상시킨다. 성공률 ρ_k 가 낮은 스킬을 샘플링 확률 P(k)∝(1‑ρ_k) 로 선택하고, 변이 제안자는 환경 조건 함수와 전제 스킬을 중심으로 m개의 변형을 생성한다. 변이된 코드는 재학습 없이 현재 목표‑조건부 정책으로 바로 평가되며, 성공률이 기존보다 높으면 그래프에 교체된다. 이 과정은 지속적인 코드‑레벨 최적화를 가능하게 하여, 에이전트가 새로운 보상 구조에 빠르게 적응하도록 만든다.
에이전트 학습은 목표‑조건부 정책 π(s,σ)와 적응형 보상 스케일링 r_i = min(1/ρ_i, 10) 으로 진행된다. 목표는 그래프에서 무작위로 선택된 Sharp를 완수하도록 하는 것이며, 매 스텝마다 현재 상태에 맞는 활성 스킬을 그래프 탐색을 통해 결정한다. 또한, 전제 스킬의 성공률을 고려한 사전‑가중치 B_j와 Top‑K 필터링을 결합한 샘플링 전략을 도입해 학습이 어려운 스킬에 집중한다.
실험은 절차적으로 생성되는 Craftax 환경에서 수행되었다. 100번의 스킬 제안과 85번의 변이 루프를 거쳐 평균 90개의 서로 다른 Sharp가 확보되었으며, 이들로 구성된 계층형 보상 체계는 단일 목표‑조건부 에이전트가 기존 베이스라인이나 전문가 정책이 해결하지 못한 장기 목표를 성공적으로 달성하게 만든다. 특히, 고수준 파운데이션 모델 플래너가 Sharp를 순차적으로 조합해 복합 작업을 설계했을 때, 평균 성능이 사전 학습된 에이전트와 전문가 정책보다 134 % 이상 향상되었다는 점이 주목할 만하다.
CODE‑SHARP의 주요 기여는 (1) 보상 함수를 코드 형태로 자동 생성·수정함으로써 인간 설계 비용을 제거, (2) 계층형 그래프 구조를 통해 스킬 간 의존성을 명시적·동적 관리, (3) 파운데이션 모델을 활용한 지속적 변이와 평가 메커니즘으로 열린 스킬 공간을 실제 학습에 연결, (4) 목표‑조건부 정책과 적응형 보상 스케일링을 결합해 장기 목표 학습을 효율화한 점이다. 이러한 설계는 향후 복합적인 멀티‑에이전트 협업, 로봇 제어, 게임 AI 등 다양한 도메인에 확장 가능성을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기