SOT‑MRAM 기반 PIM 엔진을 위한 ADMM 기반 초고압축 DNN 설계

** 본 논문은 차세대 임베디드 및 IoT 시스템에 적합한 저전력 DNN 가속기를 구현하기 위해, 스핀‑오빗 토크(SOT) MRAM 기반 처리‑인‑메모리(PIM) 엔진과 ADMM(Alternating Direction Method of Multipliers) 기반 모델 압축 프레임워크를 결합한 새로운 설계 방식을 제안한다. 1. **배경 및 동기** - 기존 CMOS 기반 DNN 가속기는 연산·데이터 이동량이 급증함에 따라 전력·면적 한계에 직면하고 있다. - SOT‑MRAM은 비휘발성, 거의 제로 대기 전력, 높은 집적도라는 장점을 가지고 있어 메모리 중심 연산에 유리하지만, 쓰기 지연과 쓰기 에너지가 크다는 단점이 있다. - 이러한 하드웨어 제약을 극복하기 위해서는 소프트웨어 레벨에서 가중치를 압축하고, 하드웨어에 맞는 구조적 희소성을 부여해야 한다. 2. **ADMM 기반 구조적 프루닝 및 양자화** - DNN 가중치를 필터‑프루닝, 채널‑프루닝, 커널‑프루닝의 세 가지 구조적 형태로 제한한다. 각각은 제약 집합 Sᵢ 로 정의되며, 프루닝 비율(αᵢ, βᵢ, θᵢ) 을 하드웨어 자원(서브배열, PE)과 직접 매핑한다. - 원본 최적화 문제 min f(W,b) s.t. Wᵢ∈Sᵢ 을 ADMM 형태로 변형한다. 보조 변수 Zᵢ와 라그랑주 승수 Uᵢ를 도입해 두 서브문제로 분할한다. - **서브문제 1**: 기존 손실 함수에 정규화 항 ρᵢ‖Wᵢ−Zᵢ+Uᵢ‖² 을 추가한 형태로, SGD를 이용해 가중치를 업데이트한다. - **서브문제 2**: Zᵢ 를 제약 집합 Sᵢ 에 투사한다. 투사 연산은 각 필터·채널·커널의 Frobenius norm을 계산하고, 상위 αᵢ, βᵢ, θᵢ 개만 남기고 나머지를 0으로 만든다. 이는 닫힌 형태 해를 갖기 때문에 연산 비용이 거의 없다. - 양자화는 별도의 제약 집합을 정의해 동일한 ADMM 루프에 포함한다. 비트폭을 줄이면 SOT‑MRAM 서브배열의 행 수가 감소해 면적·전력 절감 효과가 직접적으로 나타난다. 3. **SOT‑MRAM PIM 엔진 아키텍처** - 엔진은 다수의 PE(Processing Element) 로 구성된다. 각 PE는 입력 전용 서브배열과 여러 필터 가중치를 저장하는 서브배열들로 이루어진다. - 비트‑와이즈 컨볼루션은 네 단계(AND → 비트‑카운트 → 시프트 → 누산)로 구현되며, 이는 SOT‑MRAM 셀의 병렬 읽기 특성을 활용한다. - 구조적 프루닝이 적용되면: - **필터 프루닝**: 동일 행에 위치한 서브배열 전체를 물리적으로 제거한다. - **채널 프루닝**: 해당 채널을 담당하는 전체 PE 를 제거해 PE 수를 감소시킨다. - **커널 프루닝**: 개별 서브배열을 비활성화하거나 LUT 로 마스킹해 연산에서 제외한다. - 이러한 매핑은 제어 로직을 최소화하면서도, 하드웨어 자원을 효율적으로 재배치한다. 4. **실험 설정 및 결과** - **소프트웨어**: LeNet‑5, AlexNet, VGG‑16, ResNet‑18/50 네트워크를 PyTorch 기반으로 8 GPU(RTX‑2080Ti)에서 학습. ADMM 파라미터 ρᵢ 와 프루닝 비율을 데이터셋 별 최적화. - **하드웨어**: 32 nm CMOS 기술을 사용해 주변 회로를 설계, CACTI 로 버퍼·인터커넥트 면적·에너지 계산, NVSim 로 SOT‑MRAM 서브배열 모델링, ADC 전력은 기존 문헌값 사용. - **압축 성능**: - MNIST(LeNet‑5)에서 81.3× 압축, 정확도 99.12% (원본 99.15%). - CIFAR‑10(ResNet‑18)에서 59.8× 압축, 정확도 93.2% (원본 93.3%). - ImageNet(AlexNet)에서 5.2× 압축, Top‑1/Top‑5 정확도 57.4%/82.4% (원본 57.2%/82.2%). - **하드웨어 효율**: - 면적 평균 45% 감소, 전력 평균 70% 이상 절감. - 처리량(throughput) 3~5배 향상, 이는 프루닝으로 인한 PE·서브배열 감소와 비트‑와이즈 연산 병렬화 덕분. - **비교**: 기존 최첨단 프루닝·양자화 기법(예: Group Scissor, DCP, Network Slimming 등) 대비 압축 비율이 크게 높으며, 정확도 손실은 동일 수준 이하. 5. **시사점 및 향후 과제** - ADMM 기반 구조적 프루닝은 하드웨어 제약을 직접 반영한 최적화 문제로 변환함으로써, 소프트웨어‑하드웨어 공동 설계(co‑design)의 효율성을 극대화한다. - SOT‑MRAM의 쓰기 지연·에너지 문제를 소프트웨어 레벨에서 보완함으로써, 비휘발성 메모리 기반 PIM 가속기의 실용성을 크게 높인다. - 향후 연구는 트랜스포머와 같은 비정형 모델에 대한 ADMM‑기반 압축 적용, 온‑칩 학습 시나리오에서의 동적 프루닝·양자화, 온도·노이즈 변동성을 고려한 견고한 매핑 기법 개발 등을 제안한다. **

SOT‑MRAM 기반 PIM 엔진을 위한 ADMM 기반 초고압축 DNN 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기