대규모 언어 모델 추론을 위한 차세대 하드웨어 설계 방향

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LLM 추론은 디코드 단계의 순차성 때문에 메모리와 인터커넥트가 병목이 된다. 논문은 메모리 용량·대역폭·지연을 개선하기 위해 고대역폭 플래시(HBF), 메모리‑인‑근처 연산(PNM), 3D 메모리‑로직 스태킹, 저지연 인터커넥트 네트워크 네 가지 연구 기회를 제시한다. 또한 데이터센터와 모바일 양쪽에서 적용 가능성을 논의한다.

상세 분석

이 논문은 LLM 추론, 특히 디코드 단계가 메모리 바운드임을 강조하며, 기존 GPU/TPU가 훈련에 최적화된 구조라서 디코드에 비효율적임을 지적한다. 메모리 월(Memory Wall) 현상은 HBM 대역폭이 FLOPS 대비 성장률이 현저히 낮아 발생하며, HBM 비용이 지속적으로 상승하는 반면 DDR은 가격·대역폭이 개선되고 있다. 이러한 추세는 대용량 KV 캐시와 MoE, 장기 컨텍스트, RAG 등 최신 모델이 요구하는 메모리 용량·대역폭을 충족시키지 못한다.

논문은 네 가지 해결책을 제시한다. 첫째, 고대역폭 플래시(HBF)는 HBM과 유사한 인터페이스에 플래시 다이를 적층해 10배 수준의 용량을 제공하면서 HBM 수준의 대역폭을 유지한다. 플래시의 쓰기 내구성 제한과 페이지 기반 고지연 읽기 특성 때문에 가중치와 느리게 변하는 컨텍스트 저장에 적합하고, KV 캐시와 같은 빈번 업데이트 데이터는 DRAM과 병행 사용해야 한다.

둘째, 메모리‑인‑근처 연산(PNM)은 메모리와 로직을 별도 다이로 유지하면서 물리적으로 근접시켜 데이터 이동 전력을 최소화한다. PNM은 PIM보다 큰 메모리 샤드(수 GB~수십 GB)를 지원하므로 LLM 파라미터와 KV 캐시를 효율적으로 분할할 수 있다. 또한 로직을 최신 CMOS 공정에 구현해 전력·성능 효율을 높인다.

셋째, 3D 메모리‑로직 스태킹은 TSV와 마이크로범프를 이용해 메모리와 연산 코어를 수직으로 적층한다. HBM 기반 스택에 연산 로직을 삽입하면 기존 메모리 인터페이스를 그대로 사용하면서 대역폭·전력 효율을 2~3배 개선한다. 맞춤형 3D 설계는 더 넓은 I/O와 고밀도 패키징으로 대역폭·대역폭당 전력을 더욱 향상시킬 수 있다. 다만 열 관리와 메모리‑로직 인터페이스 표준화가 과제로 남는다.

넷째, 저지연 인터커넥트는 디코드 단계에서 작은 메시지가 빈번히 교환되는 상황에 최적화돼야 한다. 기존 훈련용 고대역폭 네트워크와 달리, LLM 추론은 레이턴시가 성능을 좌우한다. 따라서 스위치·라우터 구조를 단순화하고, 홉 수를 최소화하는 토폴로지를 설계해야 한다.

마지막으로 논문은 데이터센터와 모바일 양쪽에서 적용 가능성을 논의한다. 모바일은 HBM이 비현실적이므로 PNM·3D 스택이 전력·면적 제한 안에서 유망하고, 플래시 기반 대용량 저장은 서버‑사이드에서 모델 파라미터와 장기 컨텍스트를 효율적으로 관리하는 데 기여한다. 전체적으로 메모리·대역폭·레이터시의 삼중 병목을 동시에 해소하는 통합 아키텍처 설계가 필요함을 강조한다.

대규모 언어 모델 추론을 위한 차세대 하드웨어 설계 방향

초록

상세 분석

댓글 및 학술 토론

의견 남기기