그래프퍼프 RT: 임베디드 OpenMP 스케줄링을 위한 그래프 기반 성능 예측 모델
초록
본 논문은 이기종 임베디드 SoC에서 OpenMP 태스크 병렬 프로그램의 실행 시간(메이크스팬)을 빠르고 정확하게 예측하는 그래프 신경망(GraphPerf‑RT)을 제안한다. 태스크 DAG, CFG 기반 코드 의미, 코어별 DVFS·열·활용도 정보를 이종 그래프로 통합하고, 정규역-감마(NIG) 사전을 이용한 증거 회귀(evidential regression)로 캘리브레이션된 불확실성을 제공한다. 2–7 ms 추론 속도에 R² = 0.81, Spearman ρ = 0.95, 95 % 신뢰구간에서 PICP = 99.9 %를 달성했으며, 모델 기반 강화학습에 적용해 메이크스팬을 66 %, 에너지를 82 % 절감하고 열 위반을 완전히 방지한다.
상세 분석
GraphPerf‑RT는 임베디드 시스템에서 실시간 스케줄링에 필요한 세 가지 핵심 요소를 하나의 이질 그래프 구조로 결합한다. 첫째, 태스크 노드(V_T)는 LLVM‑IR 기반 CFG에서 추출한 루프 카운트, 사이클로마틱 복잡도, 분기 밀도 등 정적 코드 특성과 DAG 깊이·중심성·거리‑투‑싱크와 같은 토폴로지 메트릭을 포함한다. 둘째, 리소스 노드(V_R)는 코어별 현재 DVFS 단계, 이용률, 열 머리 공간(T_max‑T_current) 및 온도 변화 추세를 인코딩한다. 셋째, 메모리 노드(V_M)는 캐시 레벨, 용량·연관도·라인 크기, 대역폭·지연 프록시를 제공한다. 네 종류의 타입드 엣지(E_TT, E_TR, E_RR, E_RM)는 태스크‑태스크 선행관계(스폰·조인·데이터 의존성, 크리티컬 플래그), 태스크‑코어 배치 친화도(캐시 로컬리티·마이그레이션 오버헤드), 코어‑코어 공유(공유 L2·메모리 컨트롤러·인터커넥트 지연), 코어‑메모리 대역폭 제약을 명시한다. 이러한 풍부한 구조적·동적 정보를 통해 모델은 전통적인 히스토리 기반 회귀가 놓치는 교차 레이어 상호작용을 학습한다.
그래프 인코더는 타입별 MLP(23층, ReLU, dropout 0.1)를 사용해 각 노드의 원시 피처를 128‑차원 임베딩으로 변환하고, Heterogeneous Graph Attention Network(HGT) 기반 36개의 어텐션 레이어가 타입별 메시지를 전파한다. 어텐션 메커니즘은 엣지 타입마다 별도 키·값·쿼리를 학습해, 예를 들어 E_TR에서는 코어‑태스크 친화도가 높은 경우 가중치를 높이고, E_RR에서는 공유 자원 경쟁을 강조한다. 레이어를 거치며 얻어진 전체 그래프 표현 h_G는 풀링(노드 타입별 평균) 후 연결(concatenation)되어 다중 태스크(메이크스팬, 에너지, 하드웨어 카운터) 예측 헤드에 전달된다.
불확실성 추정은 증거 회귀(evidential regression) 방식을 채택한다. 각 예측 헤드는 정규역-감마(NIG) 분포의 파라미터(γ, ν, α, β)를 출력하고, 평균 ˆy = γ, 알레아토릭 불확실성 β/(α‑1), 에피스테믹 불확실성 β/(ν·(α‑1))를 계산한다. 학습 목표는 음의 로그 주변가능도(NLL)와 과신 방지를 위한 정규화 항(evidence regularizer)이다. 이 접근법은 Monte‑Carlo 드롭아웃이나 앙상블에 비해 추론 시 추가 샘플링 없이 캘리브레이션된 신뢰구간을 제공한다.
실험은 Jetson TX2, Jetson Orin NX, RUBIK Pi 세 가지 ARM 기반 이기종 보드에서 42개의 BOTS·PolyBench 벤치마크(다양한 입력·코어 마스크·DVFS 설정)로 수행되었다. 데이터는 73,920개의 실행 로그(시간, 전력, 온도, 성능 카운터)를 포함하며, 60/20/20 비율로 학습·검증·테스트로 분할하였다. GraphPerf‑RT는 2–7 ms의 추론 시간에 로그 변환 메이크스팬에 대해 R² = 0.81, Spearman ρ = 0.95를 기록했으며, 95 % 신뢰구간에서 PICP = 99.9 %로 매우 보수적인 불확실성 보정을 보였다. 동종 GNN(동일 구조·동일 파라미터)과 전통적인 회귀(랜덤 포레스트, XGBoost)와 비교했을 때 정확도와 캘리브레이션 모두 크게 우수했다.
모델 기반 강화학습(RL)과의 통합 실험에서는 네 가지 RL 알고리즘(SAM‑FRL, SAMBRL, MAMFRL‑D3QN, MAMBRL‑D3QN)에 GraphPerf‑RT를 세계 모델로 사용하였다. 특히 MAMBRL‑D3QN은 합성 롤아웃을 통해 200 에피소드·5 시드 평균 메이크스팬을 0.97 ± 0.35 s(66 % 감소)로, 에너지를 0.006 ± 0.005 J(82 % 감소)로 줄였으며, 온도 초과 위반을 0 %로 유지했다. 반면 모델‑프리 RL은 동일 조건에서 2.85 ± 1.66 s, 0.033 ± 0.026 J를 기록, 열 위반 사례도 발생했다.
주요 기여는 (1) OpenMP 태스크 DAG와 CFG, 런타임 DVFS·열·활용 정보를 통합한 이질 그래프 표현, (2) 타입별 어텐션과 증거 회귀를 결합한 캘리브레이션된 불확실성 추정, (3) 실시간 스케줄링에 적용 가능한 2–7 ms 추론 속도, (4) 모델 기반 RL을 통한 안전하고 효율적인 스케줄링 구현이다. 한계점으로는 현재 메모리 노드가 캐시 구조만을 다루며, 메모리‑집약 워크로드에 대한 상세 밴드위스·지연 모델링이 부족한 점, 그리고 데이터 수집 단계가 보드별 로그 수집에 의존해 새로운 플랫폼에 대한 전이 학습 비용이 존재한다는 점을 들 수 있다. 향후 연구에서는 메모리 서브시스템을 더 정밀히 모델링하고, 메타‑러닝을 통해 플랫폼 간 전이 효율을 높이며, 온라인 지속 학습 메커니즘을 도입해 실시간 환경 변화에 적응하도록 확장할 계획이다.
댓글 및 학술 토론
Loading comments...
의견 남기기