칩렛 기반 RISC‑V SoC와 모듈형 AI 가속기 설계

본 논문은 30 mm × 30 mm 인터포저 위에 7 nm RISC‑V CPU와 5 nm AI 가속기 2개, 16 GB HBM3, 전력 관리 컨트롤러 등을 조합한 칩렛 아키텍처를 제시한다. 적응형 DVFS, UCIe 확장, 분산 암호 보안, 센서 기반 부하 마이그레이션 등 4가지 핵심 기술을 통해 기존 단일 칩 설계 대비 지연 14.7 %, 처리량 17.3

칩렛 기반 RISC‑V SoC와 모듈형 AI 가속기 설계

초록

본 논문은 30 mm × 30 mm 인터포저 위에 7 nm RISC‑V CPU와 5 nm AI 가속기 2개, 16 GB HBM3, 전력 관리 컨트롤러 등을 조합한 칩렛 아키텍처를 제시한다. 적응형 DVFS, UCIe 확장, 분산 암호 보안, 센서 기반 부하 마이그레이션 등 4가지 핵심 기술을 통해 기존 단일 칩 설계 대비 지연 14.7 %, 처리량 17.3 %, 전력 16.2 % 개선을 달성했으며, MobileNetV2 추론당 3.5 mJ(860 mW/244 fps) 효율을 기록한다.

상세 요약

이 연구는 최신 360 mm² 공정에서 발생하는 수율 저하(16 % 이하)를 극복하기 위해 ‘칩렛’이라는 모듈화 전략을 채택한다. 칩렛 단위로 설계·검증이 가능해 개별 공정 수율에 따라 최적 조합을 선택할 수 있으며, 비용과 개발 주기를 크게 단축한다는 점이 가장 큰 장점이다. 논문에서 제시한 4가지 혁신 기술을 차례로 살펴보면, 첫째, 적응형 크로스‑칩렛 DVFS는 각 칩렛의 전력·성능 특성을 실시간으로 모니터링하고, 부하 변화에 따라 전압·주파수를 독립적으로 조정한다. 이는 특히 AI 가속기와 CPU가 서로 다른 전력 프로파일을 가질 때 전력 효율을 극대화한다. 둘째, AI‑aware UCIe 프로토콜 확장은 기존 UCIe 사양에 스트리밍 흐름 제어 유닛과 압축 전송 기능을 추가한다. 데이터 양이 많은 영상 처리나 신경망 레이어 전송 시 대역폭 병목을 완화하고, 압축 전송으로 메모리 I/O 부하를 12 % 이상 감소시킨다. 셋째, 분산 암호 보안은 각 칩렛에 경량화된 AES‑GCM 엔진을 탑재해 데이터 경로 전반에 걸쳐 엔드‑투‑엔드 무결성을 제공한다. 칩렛 간 인터커넥트가 물리적으로 분리돼 있더라도 보안 취약점을 최소화한다는 점이 주목할 만하다. 넷째, 센서‑구동 부하 마이그레이션 메커니즘은 온‑칩 온도, 전력 한계, 워크로드 특성을 실시간으로 수집해 작업을 고성능 AI 가속기로 이동하거나 저전력 CPU로 재배치한다. 실험 결과, 이 전략은 피크 부하 시 전력 피크를 9 % 낮추고, 열 제한에 의한 스로틀링을 방지한다.

성능 평가에서는 MobileNetV2, ResNet‑50, 실시간 비디오 스트리밍 3가지 벤치마크를 사용했으며, 기존 기본 칩렛 설계 대비 평균 14.7 % 지연 감소, 17.3 % 처리량 증가, 16.2 % 전력 절감을 달성했다. 특히 MobileNetV2 추론당 3.5 mJ 에너지 소모는 현재 상용 엣지 AI 솔루션(약 5 mJ 수준)보다 30 % 이상 효율적이다. 또한 5 ms 이하의 실시간 응답을 유지하면서도 30 mm × 30 mm 면적 내에 2개의 15 TOPS INT8 가속기를 집적해, 모놀리식 설계와 동등한 연산 밀도를 구현했다.

이 논문의 의의는 기술적 혁신뿐 아니라 설계·제조·생산 흐름 전반에 걸친 시스템 레벨 최적화를 제시했다는 점이다. 칩렛 기반 모듈화는 향후 AI 가속기와 특수 기능(예: 보안, 센서, 통신) 칩렛을 필요에 따라 교체·추가할 수 있는 업그레이드 경로를 제공한다. 따라서 제품 수명 주기 동안 하드웨어 재설계 비용을 크게 절감하고, 시장 변화에 빠르게 대응할 수 있다. 다만, 인터포저 비용, 복잡한 타이밍 검증, 그리고 UCIe 확장에 대한 표준화 진행 상황이 상용화에 걸림돌이 될 수 있다. 향후 연구에서는 인터포저 설계 자동화와 보안 프로토콜 경량화, 그리고 다양한 공정 노드 간의 이기종 통합 전략을 심층 탐구할 필요가 있다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...