LLM 안전 테스트를 위한 표현 인식 커버리지 기준 RACA

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RACA는 안전‑중심 표현을 추출해 LLM의 탈옥 프롬프트 테스트를 정량화하는 새로운 커버리지 프레임워크이다. 작은 전문가 교정 세트를 이용해 안전‑관련 프린시플 컴포넌트를 PCA로 도출하고, 테스트 셋의 개념 활성화를 측정해 6가지 서브 기준(개별·조합 커버리지)으로 평가한다. 실험 결과, 기존 뉴런‑레벨 기준보다 탈옥 프롬프트 식별 능력이 우수하고, 테스트 우선순위 지정·프롬프트 샘플링 등 실용적 활용이 가능함을 보인다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 안전성 검증에 있어 기존 정적 데이터셋 의존성을 탈피하고, 체계적인 테스트 적합성을 판단할 수 있는 커버리지 기준을 제안한다. 핵심 아이디어는 “표현 인식”(representation‑aware) 접근법으로, LLM 내부 은닉층에서 안전‑관련 개념을 나타내는 저차원 방향을 찾아내는 것이다. 이를 위해 저자들은 (1) 전문가가 선정한 소규모 탈옥 프롬프트 교정 세트를 구축하고, (2) 해당 세트에 대한 은닉 상태를 수집한 뒤 PCA를 적용해 주요 프린시플 컴포넌트(PC)를 추출한다. 각 PC는 특정 안전 개념(예: 유해 내용, 규칙 위반 등)을 의미하며, 테스트 입력에 대해 해당 PC와의 투영값을 “개념 활성화 점수”로 정의한다.

RACA는 이렇게 얻은 개념 활성화를 기반으로 두 차원의 커버리지를 설계한다. 첫 번째 차원인 개별 개념 커버리지(Individual Concept Coverage)에서는 Safety Feature Coverage(SFC), Top‑K Feature Coverage(TKFC), Feature Intersection Coverage(FIC) 등 세 가지 서브 기준을 두어 각각의 안전 개념이 얼마나 다양하게, 그리고 충분히 활성화되는지를 측정한다. 두 번째 차원인 조합 커버리지(Compositional Concept Coverage)에서는 Safety Concept Combination(SCC), Pairwise Concept Coverage(PCC), Concept‑Based Combination(CBC) 등을 도입해 여러 개념이 동시에 활성화되는 경우를 평가한다. 이러한 설계는 (i) 동의어에 대한 민감도 감소, (ii) 비유해·무효 입력에 대한 무시, (iii) 실제 탈옥 효과가 있는 프롬프트에 대한 높은 민감도라는 세 가지 설계 원칙을 만족한다.

실험에서는 GPT‑2, LLaMA‑7B 등 여러 모델에 RACA를 적용해 기존 뉴런 커버리지(NC, KMNC 등)와 비교하였다. 결과는 RACA가 높은 탈옥 프롬프트를 효율적으로 식별하고, 무의미하거나 중복된 프롬프트에 대해서는 낮은 커버리지를 부여함을 보여준다. 또한, 테스트 셋 우선순위 지정 실험에서는 RACA 점수가 높은 샘플을 먼저 평가했을 때, 동일한 테스트 비용 대비 더 많은 탈옥 성공률을 달성했다. 프롬프트 샘플링 실험에서는 RACA 기반의 스코어링을 활용해 새로운 탈옥 프롬프트를 생성했을 때, 기존 무작위 샘플링 대비 유해 콘텐츠 생성 확률이 크게 상승하였다.

또한, 교정 세트 규모, 선택된 레이어, PCA 차원 수 등 다양한 설정에 대한 민감도 분석을 수행했으며, RACA는 전반적으로 안정적인 성능을 유지한다. 특히, 교정 세트가 50~200개 정도면 충분히 의미 있는 안전 프린시플을 추출할 수 있음을 확인했다. 이는 대규모 라벨링 비용 없이도 실무에 적용 가능한 수준이다.

이 논문은 LLM 안전 테스트에 “표현 수준” 커버리지를 도입함으로써, 기존 뉴런‑레벨 접근법이 갖는 차원 폭발과 의미 없는 활성화 잡음 문제를 해결한다는 점에서 학술적·실용적 의의가 크다. 다만, PCA 기반 추출이 선형성에 의존한다는 한계와, 교정 세트의 품질에 따라 커버리지 정확도가 변동할 수 있다는 점은 향후 연구 과제로 남는다.

LLM 안전 테스트를 위한 표현 인식 커버리지 기준 RACA

초록

상세 분석

댓글 및 학술 토론

의견 남기기