신경처리유닛에서 인과 추론 연산자를 위한 컨텍스트 기반 성능 모델링
초록
**
본 논문은 엣지 디바이스에 탑재되는 최신 NPU에서 인과 추론 연산자(Quadratic Attention, Structured State‑Space Model, Causal Convolution 등)의 실제 실행 성능을 정량적으로 분석한다. 실험 결과, 전통적인 Quadratic Attention은 메모리‑바운드 특성으로 캐시 효율이 급격히 떨어지는 반면, 서브‑쿼드라틱 연산은 벡터 코어에서 계산‑바운드 혹은 데이터 이동에 의한 메모리‑바운드로 구분된다. 이를 기반으로 NPU 구조적 제약을 고려한 루프‑인‑루프 성능 모델을 제시하고, 하드웨어‑친화적인 모델 설계 및 컴파일러 최적화 방안을 제안한다.
**
상세 분석
**
본 연구는 NPU의 메모리 계층(4 MB 스크래치패드), 데이터 경로 유닛(DPU) 기반 MAC 배열, 그리고 프로그래머블 SIMD 벡터 엔진(SHA‑VE)이라는 세 가지 주요 실행 유닛을 정밀히 분석한다. Quadratic Attention은 입력 토큰 N에 대해 N²·D 연산을 요구하므로, N이 8 K를 초과하면 KV 캐시가 2 GB 이상으로 급증한다. 실험에서는 16 K 토큰 기준 KV 메모리 요구량이 768 MB에 달해 NPU의 스크래치패드를 초과하고, 결과적으로 DMA를 통한 외부 메모리 접근이 빈번해져 메모리 대역폭 포화와 캐시 미스율이 70 % 이상으로 급등한다. 이때 DPU는 MAC 연산을 충분히 수행하지만, 데이터 공급이 DMA 지연에 의해 제한되어 전체 파이프라인이 메모리‑바운드 상태에 머문다.
반면, Structured State‑Space Model(SSM)과 그 변형인 Toeplitz, Retentive, Fourier 기반 연산은 O(N·D) 혹은 O(N·log N) 복잡도를 갖는다. 특히 Fourier Attention은 FFT/IFT 연산을 SHA‑VE 코어에서 수행하도록 스케줄링했으며, 연산량은 N·log N 수준이지만 FFT 단계에서 복소수 데이터 변환과 재배열이 필요해 메모리 접근 패턴이 불규칙해진다. 실험 결과, 중간 길이(N≈4 K)에서는 SHA‑VE 코어가 연산‑바운드 상태에 머물러 85 % 이상의 연산 유닛 활용률을 보였지만, 길이가 32 K를 초과하면 FFT 버퍼가 스크래치패드 한도를 초과해 다시 DMA 전송이 발생, 메모리‑바운드 전환이 일어난다.
Causal Convolution 계열은 고정된 커널 크기 K(보통 3~7)와 선형 복잡도 O(N·K) 덕분에 메모리 접근이 연속적이며, DPU 대신 SHA‑VE 코어에서 효율적으로 실행된다. 특히 Dilated Convolution은 리셉티브 필드 확대를 위해 인덱스 간격을 늘리지만, 인덱스 계산이 간단해 캐시 라인 활용도가 높다. 실험에서는 64 K 토큰까지도 메모리 사용량이 3 MB 이하로 유지돼 스크래치패드에 완전히 적재되며, 전체 파이프라인이 계산‑바운드로 전환돼 92 % 이상의 연산 효율을 달성한다.
본 논문은 이러한 관찰을 바탕으로 NPU의 구조적 제약(스크래치패드 용량, DMA 대역폭, MAC 배열 병렬도)과 연산 특성(연산량, 메모리 접근 패턴, 데이터 재사용률) 사이의 매핑을 정량화한 루프‑인‑루프(Roofline) 모델을 구축한다. 모델은 메모리‑바운드 한계선과 계산‑바운드 한계선을 명시하고, 각 연산자가 어느 영역에 위치하는지를 시각화한다. 이를 통해 설계자는 모델 선택 시 메모리 효율성(예: KV 캐시 압축, 상태 압축)과 계산 효율성(예: 벡터화, FFT 최적화) 사이의 트레이드오프를 명확히 파악할 수 있다. 또한, 컴파일러 레벨에서 텐서 레이아웃을 NCHW에서 NWHC로 변환하거나, DMA 전송을 사전 페치(pre‑fetch) 전략으로 재조정하는 최적화가 성능 향상에 크게 기여함을 실험적으로 입증한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기