깊이의 힘: 1000층 네트워크가 목표 도달 능력을 혁신한다
초록
본 논문은 목표 조건 강화학습에서 네트워크 깊이를 4층에서 최대 1024층까지 확장함으로써 성능을 2배에서 50배까지 크게 향상시킨다. 잔차 연결, 레이어 정규화, Swish 활성화 등 최신 딥러닝 기법을 적용한 깊은 MLP 구조가 자기지도 대조 학습(CRL)과 결합되어, 탐색 없이도 복잡한 로봇 locomotion·조작 과제를 성공적으로 해결한다. 깊이가 특정 임계값을 넘을 때 새로운 행동 양식이 급격히 나타나는 현상도 관찰된다.
상세 분석
이 연구는 강화학습(RL) 분야에서 ‘스케일링’이라는 개념을 네트워크 깊이(depth) 측면에서 체계적으로 검증한다. 기존 RL 연구는 2~5층 수준의 얕은 MLP를 주로 사용했으며, 깊이를 늘리면 학습 불안정성이나 과적합 위험이 커진다는 인식이 있었다. 저자들은 이러한 편견을 깨고, 잔차 연결(ResNet), 레이어 정규화(LayerNorm), Swish 활성화와 같은 현대 딥러닝 설계 원칙을 도입해 4층에서 1024층까지 확장 가능한 아키텍처를 구축하였다.
핵심 알고리즘은 Contrastive Reinforcement Learning(CRL)이다. CRL은 목표‑조건 강화학습을 자기지도 방식으로 풀며, 상태‑행동 쌍과 목표 상태를 임베딩한 뒤 L2 거리로 유사성을 측정한다. InfoNCE 손실을 사용해 같은 트래젝터리 내 목표와 현재 상태‑행동을 긍정 샘플, 다른 트래젝터리의 목표를 부정 샘플로 구분하도록 학습한다. 이때 정책 네트워크는 critic이 제공하는 거리 신호를 최대화하도록 업데이트된다.
실험은 Brax와 MJX 기반의 다양한 시뮬레이션 환경(Locomotion, Maze Navigation, Manipulation)에서 수행되었다. 깊이 4층을 기준으로 8, 16, 32, 64, 256, 512, 1024층까지 확장했으며, 각 깊이에 대해 동일한 배치 크기·학습률·데이터 파이프라인을 유지했다. 결과는 두드러진 ‘임계 깊이(critical depth)’ 현상을 보여준다. 예를 들어 Ant Big Maze에서는 8층에서 급격히 성공률이 상승하고, Humanoid U‑Maze에서는 64층에서 새로운 점프·벽 넘기 행동이 나타난다. 이러한 급격한 성능 도약은 단순히 파라미터 수가 늘어난 것이 아니라, 깊은 계층이 복잡한 시계열 패턴과 장기 의존성을 더 효과적으로 표현하게 된 결과로 해석된다.
또한, 폭(width) 확장과의 비교 실험에서 깊이 확장은 폭 확장보다 더 큰 성능 향상을 제공함을 확인했다. 폭을 늘려도 23배 정도의 개선에 그치는 반면, 깊이를 64층 이상으로 늘리면 2050배까지 향상된다. 이는 RL에서 ‘표현력’이 깊이에 더 민감함을 시사한다.
학습 안정성 측면에서는 잔차 연결이 핵심 역할을 한다. 잔차가 없는 경우 깊이가 32층을 넘어가면 그래디언트 소실·폭발이 심화되어 학습이 실패하지만, 잔차와 레이어 정규화를 결합하면 1024층까지도 수렴한다. 또한, 배치 크기를 크게 잡을수록(예: 4096) 깊은 모델의 샘플 효율성이 향상되는 경향을 보였다.
이 논문은 깊이 스케일링이 RL에 새로운 가능성을 열어준다는 강력한 증거를 제공한다. 특히 목표‑조건 설정에서 외부 보상이 거의 없거나 전혀 없는 상황에서도, 충분히 깊은 네트워크는 자체적인 행동 구조를 스스로 발견한다는 점은 향후 자율 로봇, 탐사 에이전트 등에 큰 영향을 미칠 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기