플래시 수명과 성능을 동시에 끌어올리는 적응형 지우기 기법 AERO
초록
AERO는 NAND 플래시의 지우기 전압·시간을 셀 상태에 맞춰 동적으로 조절해, 최소한의 지우기 지연만 사용하도록 설계된 기법이다. 지우기 과정에서 발생한 실패 비트 수를 실시간으로 측정해 최적 지연을 예측하고, 초기 짧은 지우기(≈1 ms)를 통해 충분한 피드백을 확보한다. 160개의 3D NAND 칩 실험에서 평균 43 % 수명 연장과, 실제 SSD 워크로드 11종에 대한 시스템 시뮬레이션에서는 읽기 꼬리 지연을 평균 34 % 감소시켰다. 기존 NAND 구조를 그대로 사용하면서도 큰 신뢰성 마진을 활용해 안전하게 지우기 시간을 단축한다.
상세 분석
AERO가 제시하는 핵심 아이디어는 “지우기 시간은 고정값이 아니라 셀의 현재 상태에 따라 가변적이다”라는 전제에 기반한다. 전통적인 NAND 플래시에서는 최악의 경우를 대비해 20 V 이상, 3.5 ms 이상의 긴 지우기 펄스를 적용한다. 이는 모든 블록에 동일하게 적용되므로, 실제로는 충분히 짧은 시간에 완전한 지우기가 가능한 경우에도 과도한 전압·시간이 가해져 전자 트랩 형성, 산화막 손상 등 내구성 저하를 초래한다. 또한, 지우기 대기시간이 길어지면 SSD 내부의 가비지 컬렉션(GC) 및 쓰기 스케줄링이 지연돼 사용자 I/O 응답성이 저하된다.
AERO는 두 단계의 메커니즘으로 이를 해결한다. 첫 번째는 “초단기 지우기” 단계이다. 지우기 시작 직후 1 ms 정도만 전압을 인가하고, 이때 발생한 실패 비트(fail‑bit) 수를 측정한다. 실패 비트는 아직 완전히 지워지지 않은 셀을 의미하며, 그 수는 현재 블록의 전하 보유 상태와 트랩 밀도 등을 반영한다. 두 번째 단계에서는 이 피드백을 기반으로 “근접 최적 지우기 지연(near‑optimal erase latency)”을 예측한다. AERO는 사전 학습된 모델(예: 선형 회귀 혹은 경량 신경망)을 사용해 실패 비트 수와 필요한 추가 지우기 시간 사이의 관계를 매핑한다. 예측된 시간만큼 추가 펄스를 가하면, 거의 모든 셀이 완전하게 초기화되면서도 불필요한 과잉 전압을 피할 수 있다.
이 과정에서 AERO는 현대 SSD가 보유한 “신뢰성 마진(reliability margin)”을 활용한다. 현재 SSD 설계는 오류 정정 코드(ECC)와 내부 리트라이 메커니즘을 통해 일정 수준의 비트 오류를 허용한다. AERO는 이 허용 범위 내에서 지우기 시간을 의도적으로 약간 낮추어, 전체 시스템 신뢰성을 유지하면서도 지우기 지연을 크게 단축한다.
실험 결과는 설계상의 기대치를 충분히 입증한다. 160개의 3D NAND 칩(다양한 제조 공정·용량)에서 AERO를 적용했을 때 평균 43 %의 프로그램/지우기(P/E) 사이클 수명 향상이 관측되었다. 이는 지우기 전압·시간을 최적화함으로써 트랩 형성 및 전하 재분포를 억제한 결과이다. 시스템 수준에서는 11개의 실제 워크로드(데이터베이스, 웹 서버, 가상화 등)를 사용해 SSD 시뮬레이션을 수행했으며, 읽기 꼬리 지연(99th percentile latency)이 평균 34 % 감소했다. 이는 지우기 대기시간 감소가 가비지 컬렉션 스케줄링을 가속화하고, 읽기 요청이 대기 큐에 머무는 시간을 줄여준 효과이다.
AERO의 장점은 하드웨어 변경이 필요 없다는 점이다. 기존 NAND 플래시 칩을 그대로 사용하면서 펌웨어 수준에서 지우기 제어 로직만 추가하면 된다. 따라서 기존 SSD 제조 라인에 최소한의 비용으로 적용 가능하며, 특히 데이터센터·클라우드 환경에서 수명 연장과 지연 감소는 운영 비용 절감으로 직결된다. 다만, 초기 1 ms 지우기 단계에서 발생하는 실패 비트 측정 오버헤드와 예측 모델의 정확도 관리가 구현 난이도를 결정한다. 또한, 매우 오래된 NAND(예: 1‑2년 이상 사용된 디스크)에서는 실패 비트와 최적 지연 사이의 관계가 비선형적으로 변할 수 있어, 주기적인 모델 재학습이 필요할 수 있다.
전반적으로 AERO는 NAND 플래시의 물리적 특성을 정밀하게 관찰하고, 이를 시스템 수준 최적화에 연결한 대표적인 “디바이스‑시스템 협업” 사례라 할 수 있다. 향후 연구에서는 온도·전압 변동, 멀티채널 동시 지우기 상황 등을 고려한 다변량 예측 모델을 도입하거나, AERO와 기존의 웨어 레벨링, 동적 전압 조정 기법을 통합해 더욱 포괄적인 내구성·성능 향상 프레임워크를 구축할 여지가 있다.