LLM 추론의 GPU 소프트 에러 취약성: 명령어 수준 결함 주입 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 최신 대형 언어 모델(LLM)의 GPU 추론 과정에서 발생할 수 있는 소프트 에러를 명령어 수준에서 결함을 주입해 평가한다. NVBitFI 기반 프레임워크를 활용해 GPT‑2, Llama 3.2, Qwen 3 등 세 가지 아키텍처와 두 가지 규모(소형·대형)를 대상으로 텍스트 생성, 수학적 추론, 요약 등 6가지 벤치마크를 실험하였다. 결과는 모델 규모·아키텍처·작업 난이도가 오류 민감도에 크게 영향을 미치며, 대형 모델이 상대적으로 오류를 마스킹하는 비율이 높음을 보여준다. 또한, 특정 명령어 유형(예: 메모리 로드/스토어)과 비트 위치가 오류 전파에 결정적 역할을 함을 밝혀, 향후 하드웨어‑소프트웨어 공동 설계 기반 내결함 설계에 중요한 지표를 제공한다.

상세 분석

본 연구는 GPU 기반 LLM 추론의 신뢰성을 평가하기 위해 명령어 수준 결함 주입(instruction‑level fault injection)이라는 비교적 미세한 추상화 레벨을 선택했다. 이는 기존의 가중치·활성화 수준 주입보다 하드웨어 동작 흐름을 더 정확히 반영하면서도 마이크로아키텍처 수준 시뮬레이션보다 실행 속도가 빠른 절충점이다. NVBitFI를 기반으로 구현한 프레임워크는 CUDA 커널을 실시간으로 인터셉트하고, 지정된 레지스터 비트를 뒤집어 소프트 에러를 모사한다. 주입 위치는 실행 메타데이터와 연관된 LLM 레이어·모듈 정보를 역추적해 지정할 수 있어, “어떤 연산(예: 어텐션 매트릭스 계산)에서 오류가 발생했는가”를 정량화한다.

실험 환경은 NVIDIA A100(80 GB)와 최신 Xeon CPU를 사용했으며, 모델은 GPT‑2(124 M/774 M), Llama 3.2(1.23 B/3.21 B), Qwen 3(0.59 B/1.72 B) 등 6가지 구성을 포함한다. 각 모델은 Lambada, PIQA, HellaSwag, WikiText‑2, XSum, GSM8K 등 6개의 데이터셋에 대해 추론을 수행했으며, 평가 지표는 정확도, Perplexity(PPL), ROUGE‑1, 그리고 SDC(Silent Data Corruption)·DUE(Detected Unrecoverable Error) 비율을 포함한다.

주요 발견은 다음과 같다. 첫째, 오류 발생 횟수가 증가할수록 DUE와 SDC 비율이 급격히 상승한다. 1비트 오류에서는 전체 오류 중 약 70 %가 마스킹돼 정상 출력으로 나타났지만, 8비트 오류에서는 마스크 비율이 30 % 이하로 떨어져 비정상 출력 비율이 75 %에 육박한다. 둘째, 모델 규모가 클수록 마스크 비율이 높아 상대적으로 내결함성이 향상된다. 파라미터와 활성화 유닛이 많아 개별 비트 오류가 전체 연산에 미치는 영향이 희석되는 효과가 있다. 셋째, 아키텍처 별 민감도 차이가 뚜렷하다. GPT‑2는 Qwen 3‑1.7 B에 비해 동일한 오류 조건에서 DUE·SDC 비율이 5‑10 % 낮았다. 이는 GPT‑2가 사용하는 연산 패턴(예: 레이어 정규화·잔차 연결)의 구조적 특성이 오류 전파를 억제하는 역할을 할 가능성을 시사한다. 넷째, 명령어 유형별 취약도 분석 결과, 메모리 로드·스토어와 같은 데이터 이동 명령이 가장 높은 오류 전파율을 보였으며, 특히 32‑bit 레지스터의 상위 비트가 뒤집힐 경우 연산 결과가 크게 왜곡되는 경향이 있었다. 반면, 단순 산술 연산(ADD, MUL)에서는 오류가 부분적으로 마스크되는 경우가 많았다. 다섯째, 작업 난이도에 따라 오류 민감도가 달라졌다. 수학적 추론(GSM8K)과 같은 고난이도 태스크는 작은 퍼플렉시티 변화에도 출력이 크게 달라져 SDC 비율이 20 % 이상 상승했으며, 반면 텍스트 생성(Lambada)에서는 일정 수준의 노이즈를 견디는 특성이 관찰되었다.

이러한 결과는 LLM 추론 시스템 설계 시 하드웨어‑소프트웨어 공동 최적화가 필요함을 강조한다. 예를 들어, 메모리 접근이 집중되는 어텐션 연산에 대해 ECC 강화 혹은 레지스터 재배치를 적용하면 오류 전파를 크게 억제할 수 있다. 또한, 대형 모델이 자연스럽게 오류 마스킹 효과를 제공한다는 점을 활용해, 중요한 서비스에서는 파라미터를 늘리는 방향의 설계 선택이 내결함성을 높이는 실용적 방안이 될 수 있다. 마지막으로, 작업별 오류 허용 한계를 정량화함으로써, 서비스 수준 협약(SLA)에서 허용 가능한 오류율을 명시하고, 실시간 오류 감지·복구 메커니즘을 설계하는 데 필요한 기준을 제공한다.

LLM 추론의 GPU 소프트 에러 취약성: 명령어 수준 결함 주입 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기