저비용 광스위치 배열로 구현하는 대규모 AI 학습 네트워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 고래드 광회로스위치(OCS)의 높은 비용·재구성 지연 문제를 극복하기 위해 저레디스(저포트 수) OCS를 다수 결합한 “Arrays of Cheap Optical Switches”(ACOS) 구조를 제안한다. ACOS는 학습 단계별로 필요한 토폴로지를 실시간으로 재구성함으로써, 전체 N×N 완전 연결 스위치가 필요 없도록 비용을 토폴로지와 적응 기능에 비례하게 만든다. 시뮬레이션 결과, 대규모 LLM 학습 시 패킷 스위치 기반 네트워크와 동등한 성능을 유지하면서 20~70% 수준의 비용 절감 효과를 보였다.

상세 분석

ACOS는 기존 고레디스 OCS 기반 설계가 직면한 두 가지 근본적인 한계, 즉 “포트 수에 대한 비용·전력의 2차 성장”과 “재구성 지연이 수십 밀리초에 달해 학습 반복 주기와 충돌”을 회피한다. 저레디스 스위치(1×2, 2×2, 1×4 등)를 다수 배치하고, 각 가속기에 1×k 선택 스위치와 2×2 적응·복원 스위치를 추가함으로써, 토폴로지 선택, 크기 조정, 장애 복구를 각각 전용 하드웨어에 위임한다.

첫째, 토폴로지 선택 스위치는 학습 단계(데이터, 텐서, 파이프라인, 전문가 병렬)마다 서로 다른 집합 통신 패턴을 지원하도록 실시간으로 재구성된다. 이 과정은 가속기 자체가 로컬 제어를 수행하므로 전역 동기화가 필요 없으며, 재구성 지연이 10 µs 수준인 최신 MEMS·LCOS 기술을 활용하면 반복당 0.1% 이하의 오버헤드만 발생한다.

둘째, 토폴로지 적응 스위치는 작업 할당 시점에 한 번만 설정되며, 집합 크기에 따라 링·체인·토러스·확장 그래프 등 다양한 저차수 토폴로지를 생성한다. 이는 기존 고레디스 OCS가 제공하던 “전역 전역 연결”을 포기하고, 실제 사용되는 집합에만 대역폭을 집중시켜 비용 효율을 극대화한다.

셋째, 장애 복구 스위치는 2×2 스위치를 이용해 경로를 즉시 우회하도록 설계돼, 스위치·링크·NIC 고장 시에도 논리 토폴로지를 유지한다. 중앙 집중식 제어가 아닌 분산형 복구 메커니즘을 채택함으로써 대규모 데이터센터 수준에서도 단일 장애점이 존재하지 않는다.

시스템 수준에서는, ACOS는 16 GPU 소규모 클러스터부터 32 K GPU 데이터센터까지 확장 가능하도록 설계되었다. 비용 모델링 결과, 4 K GPU 규모에서는 기존 패킷 스위치 대비 27% 저렴하고, 32 K GPU에서는 19% 절감한다. 또한, 저레디스 스위치의 가격이 지속적으로 하락하고 재구성 속도가 빨라지는 추세를 반영하면, 향후 70% 이상의 비용 절감도 현실화될 수 있다.

성능 평가에서는 Qwen‑2, Mixtral‑7B, Llama‑8B/70B 등 6가지 최신 LLM을 대상으로 대규모 시뮬레이션을 수행했으며, 대부분의 경우 이상적인 비차단 패킷 스위치와 동등하거나 미세한 오버헤드(≤5%)만을 보였다. 특히 Qwen‑2와 같이 네트워크 민감도가 높은 모델에서도 높은 대역폭 옵션을 선택하면 오버헤드가 거의 사라진다.

결론적으로 ACOS는 “필요한 토폴로지만 제공한다”는 설계 철학을 통해 고레디스 OCS의 비용·전력·재구성 한계를 뛰어넘으며, 저비용·고성능·확장성을 동시에 만족하는 차세대 AI 학습 전용 네트워크 아키텍처로서 실현 가능성을 입증한다.

저비용 광스위치 배열로 구현하는 대규모 AI 학습 네트워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기