신뢰 가능한 AI를 위한 통합 메모리 관점: 확률 연산과 엔트로피 병목 해소
본 논문은 확률적 연산이 AI 시스템의 핵심 자원이 되면서 메모리와 랜덤성 공급이 병목이 되는 현상을 통합된 데이터 접근 모델로 설명한다. 확률적 접근을 결정적 접근의 제로 분산 한계로 보는 추상화와 ‘확률 데이터 비율 α’를 도입해 메모리·연산·엔트로피 세 축의 스케일 불균형을 정량화한다. 기존 폰노이만 구조의 한계를 분석하고, 샘플링을 메모리 접근에 내재화한 확률적 Compute‑in‑Memory(p‑CIM) 설계 방향과 평가 기준을 제시한…
저자: Xueji Zhao, Likai Pei, Jianbo Liu
본 논문은 신뢰 가능한 인공지능(Trustworthy AI)이 요구하는 견고성, 해석가능성, 보안·프라이버시 보호를 달성하기 위해 확률적 연산이 필수적인 역할을 한다는 점을 출발점으로 삼는다. 기존의 결정적 데이터 접근만을 전제로 설계된 메모리 시스템은 이제 확률적 샘플링을 반복적으로 수행해야 하는 워크로드와 맞물리면서 성능 병목이 발생한다는 문제를 제기한다. 이를 해결하기 위해 저자들은 ‘통합 메모리 접근’이라는 새로운 추상화를 제안한다. 이 추상화에서는 메모리 셀 자체가 특정 확률분포를 내재하고, 읽기 연산이 그 분포에서 샘플을 반환한다. 결정적 읽기는 분산이 0인 특수 경우로 해석되어, 확률적·결정적 연산을 하나의 프레임워크 안에서 일관되게 모델링할 수 있다.
핵심 개념으로 ‘확률 데이터 비율 α’를 도입한다. α는 전체 데이터 접근 중 확률적(엔트로피‑구동) 접근이 차지하는 비율을 나타내며, 0이면 전통적인 데이터‑바운드, 1에 가까우면 엔트로피‑바운드 상황을 의미한다. 시스템 전체 처리량 Φ는 컴퓨팅 처리량 π와 통합 데이터 접근 처리량 β의 최소값으로 정의되며, β는 α에 따라 엔트로피 생성 스루풋 β_rand와 전통적 메모리 대역폭 β_data의 가중 평균으로 표현된다(β = α·β_rand + (1‑α)·β_data). 이 식은 α가 미미해도 β_rand이 β_data보다 수십 배 낮은 경우 전체 시스템이 엔트로피 공급 한계에 의해 제한될 수 있음을 보여준다. 실제 폰노이만 아키텍처에서 RNG는 1 GSa/s·mm² 수준에 불과한 반면, 메모리 대역폭은 100 GB/s·mm²를 초과한다. 따라서 α가 1 % 정도만 증가해도 ‘엔트로피 벽’에 도달한다는 점을 강조한다.
논문은 이러한 병목을 해소하기 위한 네 가지 메모리‑수준 평가 기준을 제시한다. 첫째, 결정적·확률적 연산을 동일 경로에서 제공하는 ‘통합 연산’ 지원; 둘째, 다양한 확률분포를 동적으로 프로그래밍할 수 있는 ‘분포 프로그래머빌리티’; 셋째, 엔트로피 품질과 전력·면적 효율을 동시에 만족하는 ‘효율성’; 넷째, 하드웨어 비이상성(바이어스, 상관, 드리프트 등)에 강인하고 대규모 병렬 처리와 호환되는 ‘병렬 호환성’이다.
기존 폰노이만 구조는 RNG와 메모리 경로가 물리적으로 분리돼 있어 위 원칙을 만족시키지 못한다. RNG 파이프라인은 별도 회로에서 동작하며, 샘플링을 위해 추가 연산(예: Box‑Muller, Ziggurat 등)이 필요하고, 이는 데이터 이동과 제어 복잡성을 크게 증가시킨다. 결과적으로 확률적 워크로드는 메모리‑바운드에서 엔트로피‑바운드로 급격히 전이하며, 특히 베이지안 신경망, 확산 모델, 프라이버시‑보호 학습 등에서 α≈1에 가까워져 전체 성능이 크게 저하된다.
이러한 한계를 극복하기 위한 대안으로 ‘확률적 Compute‑in‑Memory(p‑CIM)’를 제시한다. p‑CIM은 메모리 셀 자체의 물리적 변동성(eNVM, SRAM 변동성, MRAM 등)을 활용해 데이터 읽기와 동시에 샘플링을 수행한다. 엔트로피 생성이 메모리 대역폭과 동일 스케일로 확대되므로, α가 증가해도 효율적인 데이터 흐름을 유지한다. 또한, 메모리 배열의 병렬성을 그대로 활용해 대규모 샘플링을 고속으로 수행할 수 있다. 논문은 p‑CIM 구현 시 직면하는 기술적 도전 과제로, (1) 샘플링 정확도와 통계적 품질 보장, (2) 온도·공정 변동에 대한 보정 메커니즘, (3) 복잡한 분포(다변량, 비정규) 구현을 위한 회로 설계, (4) 기존 프로그래밍 모델과의 인터페이스 및 소프트웨어 스택 연계 문제 등을 제시한다.
마지막으로 저자들은 제시한 평가 기준을 바탕으로 현재 상용 메모리·GPU·TPU와 차세대 p‑CIM 설계를 비교한다. 베이지안 신경망, 확산 모델, 차등 프라이버시 SGD 등 신뢰 가능한 AI 워크로드에 대해 p‑CIM은 메모리 대역폭 대비 엔트로피 공급을 10‑100배 향상시켜, 전체 시스템 에너지 효율을 2‑3배, 처리량을 5‑10배 개선할 수 있음을 시뮬레이션 결과로 보여준다. 결론적으로, 확률적 연산을 데이터 접근의 일부분으로 통합하는 새로운 메모리 관점은 AI 시스템이 직면한 엔트로피 병목을 근본적으로 해소하고, 신뢰 가능한 AI 구현을 위한 하드웨어·소프트웨어 공동 설계의 로드맵을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기