AMD MI300A FP8 매트릭스 코어와 비동기 실행·구조적 희소성 심층 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 AMD MI300A APU의 FP8 매트릭스 코어, 비동기 컴퓨트 엔진(ACE), 2:4 구조적 희소성 기능을 마이크로벤치마크로 정량화한다. 점유율 임계치, 동시 실행 공정성, 행렬 형태 의존성 및 희소성 이득의 브레이크이븐 포인트를 규명하고, 변환기(Transformer)와 혼합 정밀도 커널에 적용한 사례를 통해 시스템‑소프트웨어 차원의 스케줄링 가이드를 제시한다.

상세 분석

AMD MI300A는 24개의 Zen 4 CPU 코어와 6개의 CDNA 3 GPU 다이(총 240 CU)를 하나의 패키지에 통합하고, 128 GB HBM3를 공유한다. 각 CU는 4개의 MFMA 매트릭스 엔진을 포함해 FP64, FP32, FP16, BF16, FP8 연산을 지원한다. 논문은 이들 엔진을 직접 호출하는 저수준 HIP 마이크로벤치마크를 설계해, (1) FP8 매트릭스 코어의 스루풋이 활성 워프프런트 수(점유율)와 행렬 타일 형태에 얼마나 민감한지, (2) ACE를 통한 다중 커널 동시 실행 시 오버랩 효율과 공정성(fairness)이 어떻게 변하는지, (3) 2:4 구조적 희소성 가속이 실제 메모리 레이아웃·메타데이터 오버헤드와 결합했을 때 어느 지점에서 밀도 연산을 앞서는지를 정량화한다. FP8의 경우 16 × 16 × 32 타일을 사용했으며, 점유율이 32 워프 이상일 때 이론적 피크의 90 % 이상에 도달한다는 결과가 도출되었다. 그러나 행렬의 종횡비가 1:1에 가까울 때 가장 높은 효율을 보이고, 비대칭 형태에서는 스케줄러가 워프 재배치를 수행하면서 약 10 %의 스루풋 손실이 발생한다. ACE 실험에서는 두 개 이상의 스트림이 동시에 실행될 때 메모리 대역폭과 MFMA 유닛의 공유가 병목이 되며, 4 스트림 이상에서는 오버랩 효율이 70 % 이하로 급감한다. 공정성 지표는 0.85 ~ 0.92 사이로 비교적 균형 잡힌 편이었지만, FP8와 FP32를 혼합할 경우 FP8 스트림이 MFMA 자원을 독점해 다른 스트림이 지연되는 현상이 관찰되었다. 구조적 희소성에 대해서는 2:4 패턴을 적용한 경우, 행렬 크기가 4096 × 4096 이상일 때 밀도 연산 대비 1.8 ×~2.0 ×의 속도 향상을 보였으며, 작은 행렬(≤1024)에서는 메타데이터 로드 비용 때문에 오히려 성능 저하가 발생한다는 브레이크이븐 포인트를 제시한다. 이러한 정량적 결과는 변환기 모델의 어텐션 매트릭스, 다중 인코더‑디코더 파이프라인, 그리고 혼합 정밀도(FP8 + FP16) 트레이닝 워크로드에 적용해, 실제 애플리케이션 레벨에서 1.3 ~ 1.7 ×의 가속을 달성함을 보여준다. 마지막으로, 점유율 기반 스케줄링 정책과 ACE 할당 전략을 조정하면, 동시 실행 시 전체 시스템 효율을 15 %~20 % 향상시킬 수 있음을 실험적으로 입증한다.

AMD MI300A FP8 매트릭스 코어와 비동기 실행·구조적 희소성 심층 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기