3D 반도체 배치 설계 규칙 통합 학습기

3D 반도체 배치 설계 규칙 통합 학습기
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RulePlanner는 3차원 IC 배치 문제에서 비중첩, 경계, 그룹화, 레이어 정렬 등 7가지 이상의 실제 설계 규칙을 동시에 만족하도록 설계된 강화학습 기반 프레임워크이다. 설계 규칙을 행렬 형태로 표현하고, 행렬 기반 마스크를 이용해 불가능한 행동을 사전에 차단하며, 규칙 위반 정도를 정량화한 보상 신호를 통해 학습한다. 공개 벤치마크와 미보인 회로에 대한 실험 결과, 기존 방법들을 크게 능가하고 제로샷 일반화 능력을 보인다.

상세 분석

본 논문은 3D IC 배치 설계에서 발생하는 복합적인 하드웨어 제약을 하나의 강화학습(MDP) 프레임워크로 통합하는 데 성공하였다. 가장 큰 혁신은 설계 규칙을 “인접 터미널 마스크”와 “인접 블록 마스크”라는 두 종류의 2차원 행렬로 변환한 점이다. 인접 터미널 마스크는 블록을 특정 좌표에 배치했을 때 해당 블록과 연결되어야 할 터미널 사이의 맨해튼 거리를 저장하고, 이를 최소화함으로써 경계 제약(a)을 만족한다. 인접 블록 마스크는 배치될 블록과 이미 배치된 블록 사이의 접촉 길이(l)를 저장해, 접촉 길이를 최대화함으로써 그룹화 제약(b)을 구현한다. 이러한 행렬은 GPU 기반 병렬 연산으로 빠르게 생성되며, 각 블록마다 여러 터미널·블록이 존재할 경우 max/min 연산을 통해 합성한다.

행동 공간 제약은 정책 네트워크가 출력한 (x, y, AR) 값에 대해 이진 마스크를 적용해 불가능한 좌표를 즉시 차단하고, 연속형 AR 값은 형태 제약(g) 범위 내로 클리핑한다. 따라서 학습 단계에서 불필요한 벌점이 발생하지 않아 수렴 속도가 크게 향상된다. 보상 함수는 기존 연구가 주로 사용한 HPWL·오버랩 최소화 외에도, 정의된 7가지 규칙 각각에 대한 정량적 지표(예: 블록‑터미널 거리, 블록‑블록 인접 길이, 레이어 정렬 면적)를 포함한다. 이는 규칙 위반 정도를 직접적으로 반영해 정책이 규칙을 우선적으로 학습하도록 만든다.

실험에서는 3D 배치 공개 벤치마크와 자체 제작한 대규모 회로를 사용해, RulePlanner가 비중첩, 경계, 그룹화, 레이어 정렬, 사전 배치, 외곽, 형태 제약을 모두 만족시키는 비율을 90% 이상 달성했다. 특히, 사전 학습된 모델을 새로운 회로에 그대로 적용했을 때도 높은 성공률을 보이며, 제로샷 전이 능력이 입증되었다. 비교 표(Table 1)에서 기존 분석·휴리스틱·RL 기반 방법들은 일부 규칙만을 만족시키는 반면, RulePlanner는 모든 규칙을 동시에 처리한다는 점에서 차별성을 가진다.

한계점으로는 현재 레이어 수가 제한적이며, 매우 큰 설계(수천 개 블록)에서는 마스크 행렬 크기가 메모리 부담을 초래할 수 있다는 점을 언급한다. 또한, 정책 네트워크 구조가 비교적 단순해 복잡한 전력·열 제약을 동시에 고려하려면 추가적인 모듈이 필요할 것으로 보인다. 향후 연구에서는 마스크 압축 기법, 멀티‑스케일 정책, 그리고 전력·열 모델을 통합한 다목표 최적화로 확장할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기