컴퓨팅 절감과 에너지 효율을 동시에 잡은 RRAM 기반 CNN 가속기

본 논문은 최근 메모리와 연산을 통합한 RRAM 교차점 기반 CNN 가속기의 에너지·성능 한계를 극복하기 위해, 연산 자체를 줄이는 두 가지 새로운 방법을 제시한다. 첫 번째는 ReLU 활성화 함수가 만들어내는 출력 희소성을 활용한 ‘음수 출력 조기 차단’이다. CNN의 CONV 레이어에서 각 출력 채널에 대해 MAC 연산이 진행될 때, 현재까지 누적된 값(Accu)과 남은 비트 단계에서 발생할 수 있는 가장 큰 부분합(Max)을 실시간으로 추정한다. 만약 Accu + Max가 0 이하라면, 최종 출력이 ReLU에 의해 0으로 클램프될 것이 확정되므로 남은 모든 비트를 계산하지 않는다. 이 방식은 출력이 음수인 경우 전체 연산을 중단하게 하여, 전체 연산량의 약 57 %~71 %를 절감한다. 두 번째는 ‘적응형 근사(Adaptive Approximation)’이다. 출력이 양수이지만 남은 부분곱들의 절대값(|Max|,|Min|)이 현재 누적값(|Accu|)의 일정 비율(T) 이하일 경우, 남은 연산이 최종 결과에 미치는 영향이 미미하다고 판단하고 MAC을 종료한다. T는 사용자가 정확도와 연산 절감 사이에서 선택할 수 있는 조정 파라미터이며, 논문에서는 T = 0.5에서 1 % 미만의 정확도 손실로 80 %에 가까운 연산 절감 효과를 얻었다. 이 기법은 CNN이 갖는 내재적 오류 허용성을 활용한 것으로, 정확도 저하 없이 연산량을 크게 줄일 수 있다. 핵심 기술은 ‘실시간 최대·최소값 추정(Runtime Estimation)’이다. RRAM 교차점에서 입력 비트는 MSB부터 LSB까지 순차적으로 적용되며, 각 단계에서 발생할 수 있는 가장 큰(또는 작은) 부분합을 계산한다. 구체적으로는 현재 레이어의 가중치 절댓값과 입력 비트 위치(i)를 이용해 P·|w|·2^i 형태의 상한을 구하고, 이를 누적값과 비교한다. 이 추정은 별도의 복잡한 연산 없이 기존 비트‑레벨 슬라이싱 흐름에 삽입될 수 있다. 하드웨어 설계 측면에서, 기존 RRAM‑based 가속기는 아날로그 전류 합산을 이용해 대규모 곱셈‑누적을 수행하지만, ADC·DAC 변환이 전체 전력 소모의 주요 원천이다. 따라서 연산 회수를 줄이면 ADC 호출 횟수가 감소하고, 결과적으로 에너지 효율이 크게 향상된다. 제안된 ‘제어 유닛’과 ‘추정 모듈’은 기존 아키텍처에 최소한의 추가 회로만을 필요로 하며, 16‑bit 고정소수점 구현에서 전체 연산량을 약 70 % 절감하고, 8‑bit 양자화에서도 40 % 정도의 절감 효과를 보였다. 실험은 CIFAR‑10 데이터셋을 기반으로 한 CifarQuick 모델을 대상으로 수행되었다. 16‑bit 구현에서는 연산량을 70 % 정도 줄였음에도 불구하고 정확도 손실은 0.2 % 이하에 머물렀으며, 에너지 효율은 2.9배, 처리량은 2.8배 향상되었다. 8‑bit 구현에서도 비슷한 수준의 정확도 유지와 함께 40 % 정도의 연산 절감이 확인되었다. 이러한 결과는 메모리‑컴퓨팅 통합 구조에서 연산 절감이 전력·성능 개선에 직접적인 영향을 미친다는 것을 실증한다. 결론적으로, CompRRAE는 RRAM 기반 CNN 가속기에 출력 희소성 및 적응형 근사 기법을 결합함으로써, 기존 설계 대비 연산량을 크게 줄이고 에너지·성능을 동시에 향상시키는 실용적인 솔루션을 제공한다. 향후 연구에서는 더 복잡한 네트워크(예: ResNet, EfficientNet)와 다양한 양자화 스킴에 대한 적용 가능성을 탐색하고, 추정 모듈의 하드웨어 최적화를 통해 추가적인 전력 절감 효과를 기대할 수 있다.

컴퓨팅 절감과 에너지 효율을 동시에 잡은 RRAM 기반 CNN 가속기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기