HEAX 암호화된 데이터 연산을 위한 아키텍처
초록
HEAX는 완전동형암호(FHE) 연산을 위한 전용 하드웨어 설계로, 암호문 수준부터 모듈러 연산 수준까지 다중 병렬성을 활용한다. 핵심은 고성능 수론 변환(NTT) 엔진이며, 이를 기반으로 파이프라인화된 연산 흐름과 온칩 메모리 절감 기법을 도입한다. FPGA 구현 결과, 다양한 FHE 파라미터에서 164~268배의 속도 향상을 달성하였다.
상세 분석
본 논문은 클라우드 환경에서 데이터 프라이버시를 보장하면서도 실용적인 FHE 연산을 가능하게 하는 하드웨어 아키텍처인 HEAX를 제안한다. 기존 소프트웨어 기반 FHE 구현은 다항식 연산, 특히 수론 변환(NTT)과 모듈러 곱셈에서 발생하는 높은 연산 복잡도와 메모리 대역폭 요구 때문에 실시간 서비스에 적용하기 어려웠다. HEAX는 이러한 병목을 해소하기 위해 세 가지 수준의 병렬성을 설계에 통합한다. 첫 번째는 암호문 수준 병렬성으로, 여러 암호문을 동시에 처리함으로써 워크로드의 스루풋을 극대화한다. 두 번째는 NTT 엔진 내부의 데이터 흐름을 다중 파이프라인으로 분할하여, 변환 단계와 역변환 단계가 겹치게 실행되도록 함으로써 레이턴시를 크게 감소시킨다. 세 번째는 모듈러 연산 유닛에서 비트-레벨 파이프라인을 적용해, 곱셈·덧셈·감산을 동시에 수행하도록 설계하였다. 특히, NTT 엔진은 2D 망 형태의 PE(Processing Element) 배열을 사용해 입력 데이터를 행·열 방향으로 동시에 스케줄링하고, 각 PE는 고속 캐리-셀러리어드 모듈러 곱셈기를 내장한다. 이 구조는 기존의 순차적 NTT 구현에 비해 연산당 사이클 수를 10배 이상 절감한다.
또한, 논문은 온칩 메모리 사용량을 최소화하기 위한 데이터 재배치와 스트리밍 기법을 제시한다. 암호문과 키 스케줄 데이터를 블록 단위로 순환 버퍼에 저장하고, 필요 시 즉시 재사용하도록 함으로써 DRAM 접근을 최소화한다. 파이프라인 전반에 걸친 제어 로직은 동적 워크로드 균형을 지원해, 연산량이 변동하는 FHE 프로그램에서도 높은 자원 활용도를 유지한다.
실험에서는 Xilinx UltraScale+ FPGA에 HEAX를 구현하고, BFV, CKKS, BGV 등 주요 격자 기반 FHE 스킴의 파라미터(예: 128‑bit 보안, 8192‑점 NTT)에서 벤치마크를 수행했다. 결과는 기존 최첨단 FPGA 기반 FHE 가속기 대비 164~268배의 속도 향상을 보였으며, 전력 효율도 크게 개선되었다. 특히, 대규모 매트릭스 곱셈과 부동소수점 연산을 포함하는 CKKS 파라미터에서는 파이프라인 효율이 95%에 달했다.
이러한 설계는 향후 ASIC 구현 시에도 높은 스케일러빌리티를 기대할 수 있다. 논문은 HEAX가 FHE의 실용화를 위한 핵심 인프라가 될 수 있음을 입증하며, 클라우드 서비스 제공자가 데이터 프라이버시를 유지하면서도 복잡한 연산을 오프로드할 수 있는 길을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기