칩렛 기반 이종 근접 메모리 가속기로 구현한 엣지 멀티모달 LLM 추론

칩렛 기반 이종 근접 메모리 가속기로 구현한 엣지 멀티모달 LLM 추론
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CHIME은 2.5D UCIe 패키지에 M3D DRAM과 M3D RRAM 칩렛을 결합한 이종 근접 메모리 가속기이다. DRAM은 저지연 대역폭이 필요한 어텐션과 KV 캐시를 담당하고, RRAM은 고밀도 비휘발성 저장소로 가중치와 FFN 연산을 수행한다. 공동 설계된 매핑 프레임워크는 데이터 레이아웃, KV 캐시 티어링, 커널 융합을 통해 칩렛 간 이동을 최소화한다. FastVLM·MobileVLM 모델에서 Jetson Orin NX 대비 최대 54배 속도 향상, 246배 에너지 효율 개선을 달성했으며, 기존 PIM 가속기 FACIL 대비 69배 높은 처리량을 기록한다.

상세 분석

CHIME은 엣지 디바이스에서 멀티모달 대형 언어 모델(MLLM) 추론 시 발생하는 메모리 대역폭 및 에너지 병목을 해소하기 위해 이종 근접 메모리 구조를 채택한다. 핵심은 monolithic‑3D(M3D) DRAM과 M3D RRAM을 2.5D UCIe 인터포저에 배치한 칩렛 설계이며, 각각의 칩렛에 Near‑Memory Processor(NMP)를 탑재한다. DRAM 칩렛은 1T1C 셀 기반으로 저지연·고대역폭을 제공하며, 200계층에 걸친 수직 스택을 활용해 KV 캐시를 5단계 티어링한다. 가장 빈번히 접근되는 어텐션 QKV와 KV 블록은 하위 티어(티어‑0)에 배치해 접근 지연을 최소화하고, 상위 티어(티어‑4)는 커넥터 연산에 할당한다. 각 채널은 256‑way SIMD 특수 기능 처리 유닛(SFPE)과 16개의 일반 PE를 포함하고, 2×2 MAC 텐서 코어와 이중 버퍼링을 통해 행버퍼에서 스트리밍되는 타일 데이터를 연속적으로 처리한다. 이 구조는 어텐션 스코어링·소프트맥스·스케일링을 메모리 근처에서 수행해 데이터 이동을 크게 줄인다.

RRAM 칩렛은 1T1R 비휘발성 소자를 8계층으로 적층하고, 각 계층에 전용 컨트롤러와 1 MB SRAM을 두어 FFN 가중치를 직접 저장한다. FFN 연산은 DRAM‑NMP에서 생성된 AttnOut을 RRAM‑NMP로 전송한 뒤, 로컬 MAC 연산으로 즉시 처리하고 결과인 FFNOut을 다시 DRAM으로 스트리밍한다. 이 파이프라인은 어텐션과 FFN 사이의 전송 포인트를 두 개(AttnOut, FFNOut)로 고정해 교차 칩렛 트래픽을 최소화한다.

매핑 프레임워크는 세 가지 원칙을 기반으로 한다. 첫째, 워크로드‑인식 데이터 레이아웃으로 모델 파라미터와 KV 캐시를 접근 패턴에 따라 DRAM·RRAM에 정적 할당한다. 둘째, KV 캐시 티어드 스케줄링 정책이 캐시 블록의 재사용 빈도와 이동 비용을 평가해 적절한 DRAM 층으로 동적 마이그레이션한다. 셋째, 커널 로컬리티‑aware 융합으로 QKV 프로젝션·FlashAttention, 그리고 FFN을 각각 하나의 fused kernel으로 구현해 중간 텐서 저장을 없앤다. 이러한 설계는 RRAM의 쓰기 에너지와 내구성 제한을 고려해 가중치 업데이트를 최소화하고, 디지털 정확도를 유지한다.

실험 결과, FastVLM(0.6 B/1.7 B)과 MobileVLM(1.7 B/3 B)에서 Jetson Orin NX 대비 31‑54배 속도 향상, 113‑246배 에너지 효율 개선을 달성했으며, 토큰당 116.5‑266.5 J를 소비한다. 또한 기존 PIM 가속기 FACIL 대비 69.2배 높은 처리량을 보였다. DRAM‑전용 설계와 비교했을 때 에너지 효율은 7 %, 성능은 2.4배 개선되었다.

핵심 인사이트는 (1) 이종 메모리 칩렛을 2.5D 패키징으로 결합해 각각의 메모리 특성을 최적 활용, (2) 데이터와 연산을 메모리 근처에 배치해 메모리‑연산 간 병목을 근본적으로 해소, (3) 매핑 프레임워크를 통해 KV 캐시 티어링·커널 융합을 자동화함으로써 설계 복잡성을 낮추고 실시간 멀티모달 추론을 가능하게 한다는 점이다.


댓글 및 학술 토론

Loading comments...

의견 남기기