시각 로봇의 단순함과 깊이: 마우스 vs AI 2025 우승 전략
초록
본 논문은 NeurIPS 2025 “Mouse vs. AI” 대회에서 팀 HCMUS_TheFangs가 제시한 두 트랙 최우수 솔루션을 소개한다. 트랙 1에서는 두 층 CNN에 GLU와 관측 정규화를 결합한 경량 모델로 95.4%의 성공률을 달성했으며, 트랙 2에서는 16층 ResNet‑style 구조에 GLU 게이팅을 적용해 1,780만 파라미터로 최고 수준의 신경 정렬 성능을 얻었다. 10개의 체크포인트(60K–1.14M 스텝)를 분석한 결과, 학습 단계와 성능 사이에 비단조적 관계가 존재해 약 200K 스텝에서 최적점이 나타난다. 실험을 통해 단순 구조가 시각 강인성에, 깊은 구조가 생물학적 신경 정렬에 유리함을 입증한다.
상세 분석
이 연구는 시각 기반 강화학습과 신경 정렬이라는 두 축을 동시에 탐구한다는 점에서 학계에 새로운 패러다임을 제시한다. 첫 번째 트랙에서는 “복잡함이 곧 성능”이라는 기존 가정을 깨고, 2‑layer CNN에 Gated Linear Unit(GLU)과 Observation Normalization(ON)을 추가한 경량 설계가 오히려 시각 교란(안개, 조명 변화 등) 하에서 가장 높은 일반화 점수를 기록했다. 여기서 GLU는 특성 변환 경로와 시그모이드 게이트 경로를 병렬로 두어, 교란에 강인한 특징만을 선택적으로 통과시키는 역할을 한다. ON은 배치 차원에서의 평균·분산을 실시간으로 추정해 입력 영상의 전역 밝기 변동을 보정함으로써, 조명 변화에 대한 민감도를 크게 낮춘다. 두 층의 컨볼루션은 큰 커널(8×8, 4×4)과 큰 스트라이드(4, 2)를 사용해 초기에 공간 해상도를 급격히 축소함으로써 연산량을 최소화하고, 저수준 에지와 텍스처 정보를 효율적으로 압축한다. 이러한 설계는 과적합 위험을 감소시키고, 강화학습 환경에서 흔히 발생하는 불안정성을 완화한다는 점에서 실용적이다.
두 번째 트랙에서는 신경 정렬을 목표로 하여, 16층의 ResNet‑like 구조에 GLU 기반 게이팅을 삽입했다. 깊은 네트워크는 시각 피라미드와 유사하게 저수준에서 고수준까지 계층적 특징을 학습할 수 있어, 마우스 시각 피질(V1~higher areas)의 다층 신경 반응을 선형 리드아웃(R²)으로 예측하는 데 유리했다. 특히, 각 residual block에 GLU를 배치함으로써, 층별 특징 선택성을 강화하고, 불필요한 정보 흐름을 억제한다. 실험 결과, 첫 번째 GLU 레이어가 가장 큰 기여를 하며 이후 레이어는 학습 변화가 미미함을 확인했다. 이는 생물학적 시각 시스템이 초기 단계에서 강력한 필터링을 수행하고, 이후 단계에서는 비교적 안정된 표현을 유지한다는 가설과 일맥상통한다.
학습 단계와 성능 사이의 비단조적 관계는 중요한 통찰을 제공한다. 체크포인트 분석에서 200K 스텝 전후에 최고 점수가 나타났으며, 이후 학습이 진행될수록 과적합 현상이 두드러졌다. 이는 강화학습에서 환경 샘플의 다양성이 제한적일 때, 장시간 학습이 정책의 일반화 능력을 저해할 수 있음을 시사한다. 또한, 다양한 실패 사례(인셉션넷, 24‑block ResNet, LSTM 기반 시계열 모델 등)를 상세히 기록함으로써, 복잡한 아키텍처가 학습 불안정성, 메모리 소모, 그리고 교란에 대한 취약성을 초래한다는 실증적 근거를 제공한다.
전반적으로 이 논문은 (1) 시각 강인성을 위해서는 구조적 단순성과 적절한 정규화·게이팅이 핵심이며, (2) 신경 정렬을 목표로 할 때는 충분한 깊이와 계층적 표현 능력이 필요하다는 두 가지 상반된 설계 원칙을 명확히 구분한다. 이러한 결과는 향후 로봇 비전, 신경과학 기반 AI, 그리고 멀티모달 강화학습 연구에 실용적인 가이드라인을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기