하이브리드 메모리 연산을 위한 DARTH‑PUM: 아날로그·디지털 통합 아키텍처
초록
DARTH‑PUM은 아날로그와 디지털 PUM(Processing‑Using‑Memory)을 하나의 칩에 결합한 하이브리드 구조로, 아날로그 MVM의 고속·고효율과 디지털 PUM의 범용 연산 능력을 동시에 제공한다. 최적화된 주변 회로와 프로그래밍 인터페이스를 통해 AES 암호화, CNN, 대형 언어 모델 등 다양한 워크로드를 메모리 내부에서 완전 실행하며, 기존 아날로그+CPU 기반 시스템 대비 10배‑60배 수준의 속도 향상과 40배‑110배의 에너지 절감을 달성한다.
상세 분석
DARTH‑PUM은 기존 아날로그 PUM이 직면한 비행 연산(비‑MVM) 지원 부족과 디지털 PUM이 갖는 낮은 연산 집약도 문제를 동시에 해결한다는 점에서 혁신적이다. 핵심 설계는 크게 세 부분으로 나뉜다. 첫째, 아날로그와 디지털 타일을 물리적으로 인접하게 배치하고, 고대역폭 인터‑타일 인터커넥트를 통해 데이터 흐름을 최소화한다. 이를 위해 저전력 고속 직렬/병렬 변환 회로(ADC/DAC)를 공유하고, 변환 비율을 동적으로 조정하는 레이트‑매칭 모듈을 도입해 변환 병목을 완화한다. 둘째, 주변 회로 최적화는 아날로그 타일에서 요구되는 고정밀 ADC와 디지털 타일에서 필요한 로우‑레벨 논리 연산을 하나의 모듈에 통합함으로써 면적·전력 오버헤드를 크게 낮춘다. 특히, SAR‑ADC와 램프‑ADC를 혼합 사용해 정확도와 속도 사이의 트레이드오프를 워크로드 특성에 맞게 선택한다. 셋째, 프로그래밍 모델은 기존 PUM API와 호환되면서도 아날로그와 디지털 연산을 선언형으로 결합할 수 있는 DSL(Domain‑Specific Language) 레이어를 제공한다. 이 레이어는 비트‑슬라이싱, 부호 처리, 그리고 양쪽 타일 간 데이터 변환을 자동으로 삽입해 개발자가 하드웨어 세부 사항을 신경 쓰지 않아도 된다.
핵심 기술적 인사이트는 다음과 같다. (1) 아날로그 타일은 다중 비트 저장과 MAC 연산을 통해 대규모 행렬‑벡터 곱을 고속으로 수행하지만, 노이즈와 비선형성으로 인한 정확도 저하를 보정하기 위해 디지털 타일에서 보조 연산(예: 활성화 함수, 정규화)을 수행한다. (2) 디지털 PUM은 단일 비트 로직을 이용해 부울 연산, 조건 분기, 루프 제어 등을 구현함으로써 비‑MVM 작업을 완전하게 대체한다. (3) 비트‑슬라이스 기법을 양쪽 타일에 일관되게 적용해 4‑12비트 이상의 연산 정밀도를 확보하면서도 DAC/ADC 수를 최소화한다. (4) 인터‑타일 데이터 전송은 패킷화된 스트림 형태로 처리되며, 전송 지연을 최소화하기 위해 전용 버퍼와 흐름 제어 로직을 삽입한다. (5) 전력 효율성은 아날로그 타일에서 발생하는 연산 전력(전류‑전압 곱)과 디지털 타일에서의 스위칭 전력을 각각 최적화하고, 변환 단계에서 발생하는 정적 전력을 공유 회로로 통합함으로써 전체 시스템 전력 소비를 40배 이상 절감한다.
실험 결과는 세 가지 베이스라인 대비 성능·에너지 향상을 명확히 보여준다. AES 암호화는 비트‑레벨 연산이 많이 요구되는 특성상 디지털 PUM이 주도하며, 아날로그 타일은 키 스케줄링의 대규모 행렬 연산을 가속한다. CNN 워크로드는 컨볼루션 연산을 아날로그 타일에서 수행하고, 활성화·풀링을 디지털 타일에서 처리해 전체 파이프라인을 메모리 내부에 머물게 한다. 대형 언어 모델(LLM)에서는 트랜스포머의 매트릭스 연산을 아날로그 타일이 담당하고, 어텐션 스코어 정규화와 토큰 선택 로직을 디지털 타일이 담당함으로써 40.8배 속도 향상과 110배 에너지 절감을 달성한다.
이러한 설계는 메모리 기술이 ReRAM 기반임을 전제로 하지만, SRAM·DRAM·PCM 등 다른 비휘발성·휘발성 메모리에도 동일한 하이브리드 원리를 적용할 수 있다. 따라서 DARTH‑PUM은 임베디드 시스템부터 데이터 센터까지 확장 가능한 범용 PUM 플랫폼으로서, 향후 메모리‑중심 컴퓨팅 패러다임 전환에 핵심적인 역할을 할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기