열·와이어길이 동시 최적화를 위한 다중에이전트 강화학습 기반 2.5D 칩렛 배치 프레임워크
초록
TDPNavigator‑Placer는 칩렛의 열 설계 전력(TDP)에 따라 고전력·저전력 칩렛을 각각 열‑전용 에이전트와 와이어길이‑전용 에이전트에 할당하는 다중에이전트 강화학습(MARL) 구조를 제안한다. 두 에이전트는 별도 보상과 제약을 갖고 동시에 학습함으로써 와이어길이와 온도 사이의 상충 관계를 파레토 최적화한다. 실험 결과, 기존 SA·BO·단일‑에이전트 RL 대비 파레토 프론트가 크게 향상되고, 특히 CPU‑DRAM 설계에서 와이어길이를 24 % 감소시키며 온도를 3.4 % 낮추었다.
상세 분석
본 논문은 2.5D 시스템에서 칩렛 배치 시 발생하는 와이어길이 최소화와 열 관리라는 두 상충 목표를 동시에 해결하기 위해 다중에이전트 강화학습(MARL) 프레임워크를 설계하였다. 핵심 아이디어는 각 칩렛의 열 설계 전력(TDP)을 기준으로 “고‑TDP”와 “저‑TDP” 두 그룹으로 나누고, 각각을 전용 에이전트에 할당하는 것이다. 고‑TDP 칩렛은 열‑에이전트가 담당해 온도 감소를 위한 배치를 수행하고, 저‑TDP 칩렛은 와이어길이‑에이전트가 담당해 배선 길이 최소화를 목표로 한다.
1️⃣ TDP Navigator: TDP 임계값(논문에서는 80 W)보다 큰 칩렛을 열‑에이전트에, 작은 칩렛을 와이어길이‑에이전트에 매핑한다. 이 과정은 배치 순서를 고‑TDP → 저‑TDP 로 고정함으로써 고전력 칩렛 간의 과도한 열 집중을 사전에 방지한다.
2️⃣ 상태 표현: 두 에이전트는 공통으로 뷰 마스크(이미 배치된 칩렛 위치), 포지션 마스크(가능 배치 위치), 회전 포지션 마스크(90° 회전 가능 여부)를 입력받는다. 열‑에이전트는 추가로 열 마스크(핫스팟 시뮬레이션 결과)를, 와이어길이‑에이전트는 와이어 마스크(각 후보 위치에서 예상 와이어길이 변화를 추정)를 사용한다. 모든 마스크는 ‑1~1 범위로 정규화되어 신경망에 직접 입력된다.
3️⃣ 정책 학습: PPO(Proximal Policy Optimization) 알고리즘을 이용해 각각의 정책을 독립적으로 학습한다. 에이전트는 매 스텝마다 하나의 칩렛을 선택·배치하고, 그 결과에 따라 보상이 부여된다.
4️⃣ 보상 설계: 와이어길이‑에이전트는 ΔWL = WL_{t‑1} – WL_t 형태의 감소량을 0~1로 정규화한 값을 보상으로 사용한다. 열‑에이전트는 ΔT = T_{t‑1} – T_t (핫스팟 온도 감소량) 를 동일하게 정규화한다. 두 보상 모두 즉시 피드백을 제공해 학습 효율을 높인다.
5️⃣ 실험 설정: TAP‑2.5D 벤치마크의 Multi‑GPU와 CPU‑DRAM 두 구성에 대해 SA, Bayesian Optimization, 단일‑에이전트 RL(가중합 보상)과 비교하였다. 파레토 프론트 분석을 통해 두 목표 모두에서 우수함을 입증했으며, 특히 CPU‑DRAM에서 와이어길이를 1.38 × 10⁻⁴ mm (기준 대비 24 % 절감) 로, 온도를 93.7 °C (기준 대비 3.4 % 감소) 로 달성했다.
6️⃣ 한계와 향후 과제: 현재는 TDP 임계값을 고정하고, 고‑TDP와 저‑TDP를 이진 분류한다. 실제 설계에서는 전력 프로파일이 연속적이며, 전력‑온도‑전압 상호작용을 고려한 다중 목표가 필요하다. 또한, 현재 마스크 기반 상태는 격자 해상도에 민감해 고해상도 배치에서는 메모리·연산 부담이 커질 수 있다. 향후에는 연속형 좌표 공간, 온도‑전력‑전압 동시 모델링, 그리고 멀티‑에이전트 협업 메커니즘(예: 협상·공유 보상) 등을 도입해 확장성을 높일 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기