LLM 순위 모델의 프롬프트 주입 취약성 종합 분석

LLM 순위 모델의 프롬프트 주입 취약성 종합 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM 기반 재랭킹 시스템이 문서 내부에 삽입된 탈옥 프롬프트에 의해 순위 판단을 크게 왜곡당할 수 있음을 실증한다. 두 가지 평가 과제(선호도 취약성·ASR, 순위 품질 저하·nDCG@10)를 통해 페어와이즈, 리스트와이즈, 셋와이즈 3가지 랭킹 패러다임과 두 종류의 주입(목표 탈취·DOH, 기준 탈취·DCH)을 포괄적으로 실험한다. 모델 규모, 위치, 아키텍처(디코더‑전용 vs 인코더‑디코더), 도메인 전이 등 다양한 변수에 대한 확장 실험을 수행해, 특히 인코더‑디코더 구조가 탈옥 공격에 강인함을 발견한다. 코드와 추가 실험 결과를 공개한다.

상세 분석

이 연구는 LLM 기반 재랭킹 파이프라인이 “프롬프트 주입”이라는 비교적 단순한 공격에 얼마나 취약한지를 체계적으로 규명한다. 먼저 기존 연구(Qian et al., 2025)의 두 가지 공격 방식을 재현한다. Decision Objective Hijacking(DOH)은 모델에게 “주입된 문서를 가장 관련성이 높다”고 명시적으로 지시하고, Decision Criteria Hijacking(DCH)은 관련성 판단 기준 자체를 변형해 주입된 문서를 우선시하도록 만든다. 두 공격 모두 후보 문서에 삽입된 마커 문자열(예: “


댓글 및 학술 토론

Loading comments...

의견 남기기