뇌를 닮은 연속학습: 히포캘(Hippocampal‑Inspired Continual Learning)

뇌를 닮은 연속학습: 히포캘(Hippocampal‑Inspired Continual Learning)
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HiCL은 해마의 DG‑CA3‑CA1 회로를 모방한 이중 메모리 구조와 그리드 셀 인코딩, 상위 k 희소화, 프로토타입 기반 코사인 유사도 라우팅을 결합한 새로운 연속학습 모델이다. 전문가 모듈을 동적으로 선택하고, 우선순위 재생·EWC·대조 손실을 통해 과거 지식을 보존하면서 낮은 연산 비용으로 여러 순차 작업을 학습한다.

상세 분석

HiCL은 연속학습 분야에서 흔히 제기되는 안정성‑가소성 딜레마를 해마의 삼중 회로(DG, CA3, CA1)에서 영감을 얻은 구조적 추상화로 해결한다. 먼저 입력을 1×1 컨볼루션을 이용한 그리드‑셀 레이어에 통과시켜 위상‑오프셋을 학습함으로써 공간·맥락 정보를 구조화된 임베딩으로 변환한다. 이 임베딩은 전형적인 CNN 피처와 달리 주기적인 사인 변환을 적용해 관계적 선형성을 강화한다는 점이 흥미롭다.

다음 단계인 DG 모듈은 선형 변환 후 ReLU와 레이어 정규화를 거쳐 Top‑k(≈5 %) 연산을 수행한다. 이는 생물학적 억제 회로를 비파라메트릭하게 모사한 것으로, 입력을 거의 직교적인 희소 코드로 변환해 전문가 간 간섭을 자연스럽게 최소화한다. 논문은 이 과정이 MoE의 라우팅 비용을 감소시키면서도 고차원 특징을 효과적으로 분리한다는 실험적 증거를 제시한다.

CA3는 전통적인 재귀적 어트랙터 네트워크 대신 두 층 MLP를 사용해 패턴 완성을 수행한다. 비록 순환 구조의 동적 안정성을 완전히 재현하지는 못하지만, 전방향 연산만으로도 부분 입력으로부터 완전한 기억을 복원하는 기능을 충분히 근사한다는 점에서 실용적이다.

CA1 통합 블록은 DG의 희소 코드와 CA3의 완성된 표현을 단순히 연결(concatenation)하고, 이후 LayerNorm·ReLU를 거쳐 최종 피처를 만든다. 이는 해마‑신피질 대화에서 CA1이 두 경로를 통합하는 역할을 수학적으로 단순화한 것으로, 이후의 분류 헤드와 프로토타입 업데이트에 직접 활용된다.

가장 독창적인 부분은 DG‑기반 라우팅이다. 각 전문가마다 독립적인 DG 모듈과 EMA(지수 이동 평균) 프로토타입을 유지하고, 현재 입력의 DG 코드와 프로토타입 간 코사인 유사도를 계산해 소프트/하드 게이팅을 수행한다. 별도의 게이팅 네트워크가 필요 없으므로 파라미터 오버헤드가 거의 없으며, 라우팅이 입력 특성에 직접 연결돼 태스크 라벨이 없는 상황에서도 효과적으로 전문가를 선택한다.

학습은 두 단계로 나뉜다. Phase I에서는 각 전문가가 자체 손실(분류·프로토타입 근접·대조 손실)과 EWC를 적용받으며, 동시에 우선순위 재생 버퍼에 저장된 과거 샘플을 사용해 중요한 기억을 강화한다. Phase II에서는 모든 DG 모듈에 대조 손실을 적용해 서로 다른 전문가 간 코드의 정규성을 높이고, inter‑task similarity에 기반한 가중 EWC로 파라미터 변화를 억제한다. 이러한 이중 메모리(빠른 DG‑CA3‑CA1와 느린 전체 네트워크) 스케줄은 CLS(Complementary Learning Systems) 이론과 일치한다.

실험에서는 Split CIFAR‑10, Split MNIST 등 표준 연속학습 벤치마크에서 SOTA에 근접하거나 더 낮은 FLOPs·파라미터로 경쟁력을 보였다. 특히 전문가 수를 늘려도 라우팅 비용이 선형적으로 증가하지 않아 확장성이 좋다.

하지만 몇 가지 한계도 존재한다. 첫째, 프로토타입은 DG 코드의 평균에 불과해 복잡한 클래스 경계나 비선형 변화를 충분히 포착하지 못할 가능성이 있다. 둘째, CA3를 단순 MLP로 대체함으로써 실제 재귀적 기억 회복 능력이 감소했으며, 장기 시계열 의존성을 요구하는 작업에서는 성능 저하가 예상된다. 셋째, 현재 실험은 이미지 분류에 국한돼 있어 자연어 처리·강화학습 등 다른 도메인에 대한 일반화 검증이 부족하다. 넷째, EMA 업데이트와 대조 손실의 하이퍼파라미터가 많아 실제 적용 시 튜닝 비용이 증가할 수 있다.

전반적으로 HiCL은 생물학적 영감을 구조적 설계와 수학적 최적화로 성공적으로 연결한 사례이며, 특히 라우팅 비용을 최소화하면서도 전문가 간 간섭을 억제하는 DG‑gated MoE 아이디어는 향후 연속학습 모델 설계에 중요한 참고가 될 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기