의료 프롬프트 주입 공격 평가를 위한 MPIB 벤치마크

의료 프롬프트 주입 공격 평가를 위한 MPIB 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

MPIB는 임상 업무에 적용되는 대형 언어 모델(LLM)과 검색‑증강 생성(RAG) 시스템을 대상으로 직접·간접 프롬프트 주입 공격을 평가하는 데이터셋·벤치마크이다. 임상 위험을 정량화하기 위해 고위험 임상 해악 사건 비율(CHER)과 기존의 공격 성공률(ASR)을 함께 제시한다. 9,697개의 사례를 네 가지 시나리오와 두 종류의 공격 벡터(V1 직접, V2 간접)로 구성하고, 다양한 LLM 및 방어 설정에 대한 실험을 통해 ASR과 CHER가 크게 다를 수 있음을 보여준다.

상세 분석

본 논문은 의료 현장에서 LLM·RAG 시스템이 악의적인 프롬프트 주입에 취약함을 지적하고, 이를 체계적으로 측정할 수 있는 벤치마크 MPIB를 제안한다. 기존 안전 벤치마크가 “유해 콘텐츠”나 “정책 위반” 수준의 표면적 지표에 머무는 반면, MPIB는 임상 결과 수준의 위험을 직접 측정한다. 이를 위해 저자들은 임상 해악 사건을 0~4 단계의 심각도와 H1‑H5 유형으로 분류한 임상 해악 분류 체계를 구축하고, 심각도 3 이상을 ‘고위험’으로 정의해 CHER(Clinical Harm Event Rate)를 도입하였다.

데이터셋 구축 과정은 (1) 실제 임상 작업(설명, 투약, 응급 triage, 가이드라인 검증)에서 발생할 수 있는 질문을 선정하고, (2) 각각에 대해 정상·경계·악의적 프롬프트를 삽입한 4가지 시나리오(S1‑S4)와 두 공격 벡터(V1 직접, V2 간접)를 조합해 9,697개의 인스턴스를 생성한다. 각 인스턴스는 (질문 q, 컨텍스트 C, 위협 벡터 m, 정답 라벨 ℓ) 형태로 정의되며, 라벨은 해악 유형과 심각도를 포함한다.

평가에서는 12개의 공개·폐쇄형 LLM을 대상으로 ASR(공격 명령을 그대로 수행한 비율)과 CHER(고위험 해악 사건 발생 비율)를 동시에 측정한다. 실험 결과, V2(간접 주입) 상황에서 CHER가 V1에 비해 수배 이상 상승하는 경우가 많으며, ASR이 낮아도 CHER가 높은 ‘위험-불일치’ 현상이 빈번히 관찰된다. 이는 RAG 파이프라인이 외부 문서를 신뢰하는 구조적 약점이 임상 위험을 크게 증폭시킨다는 점을 시사한다.

또한 방어 측면에서 저자들은 (① 프롬프트 필터링, ② 컨텍스트 정제, ③ 모델 내부의 지시 무시 메커니즘) 등 세 가지 기본 방어를 구현하고, 각각이 ASR과 CHER에 미치는 영향을 분석한다. 필터링은 ASR을 크게 낮추지만 CHER 감소 효과는 제한적이며, 컨텍스트 정제는 V2 공격에 특히 효과적이다.

마지막으로, 평가의 재현성을 위해 LLM‑as‑a‑judge 방식을 도입해 자동화된 해악 유형·심각도 판정을 수행하고, 판정 결과에 대한 스키마 검증과 결정론적 후처리를 제공한다. 데이터와 코드는 GitHub·Hugging Face에 공개하고, 악용 방지를 위한 페이로드 마스킹 및 무결성 서명을 포함한 책임 있는 릴리스 정책을 제시한다.

이러한 설계는 의료 AI 시스템이 실제 배포될 때 “정책 위반 여부”가 아닌 “환자에게 미치는 실제 위험”을 중심으로 안전성을 검증하도록 돕는다.


댓글 및 학술 토론

Loading comments...

의견 남기기