시간 불일치: 대형 언어 모델의 적대적 공격에 대한 생존 분석
초록
본 논문은 다중 턴 대화에서 LLM이 처음으로 일관성을 잃는 시점을 ‘시간‑to‑inconsistency’로 정의하고, 36,951개의 턴을 대상으로 Cox 비례위험, 가속 실패시간(AFT), 랜덤 서바이벌 포레스트(RSF) 모델을 적용해 위험 요인을 분석한다. 급격한 프롬프트 간 의미 드리프트가 위험을 크게 높이는 반면, 누적 드리프트는 오히려 보호 효과가 있음을 발견했으며, 모델‑드리프트 상호작용을 포함한 AFT 모델이 가장 높은 판별력과 보정성을 보였다. 경량 AFT 기반 위험 모니터를 설계해 오류 발생 전 몇 턴을 미리 경고할 수 있음을 실증한다.
상세 분석
이 연구는 기존의 정적 벤치마크가 놓치기 쉬운 ‘시간적’ 요소를 서바이벌 분석이라는 통계 프레임워크로 도입함으로써, LLM의 다중 턴 일관성 붕괴 과정을 정량화한다. 논문은 먼저 MT‑Consistency 데이터셋에서 9개의 최신 LLM을 대상으로 최대 8턴까지 진행되는 대화 흐름을 수집하고, 초기 답변이 올바른 경우에만 ‘첫 번째 불일치’ 사건을 정의한다. 시간은 이산형 턴 번호로 측정되며, 불일치가 발생하지 않은 대화는 오른쪽 검열(right‑censored) 처리한다.
특징 설계는 두 종류의 임베딩(프롬프트 임베딩, 컨텍스트 임베딩)에서 코사인 유사도를 이용해 세 가지 의미 드리프트 지표—프롬프트‑투‑프롬프트 드리프트(Dp2p), 컨텍스트‑투‑프롬프트 드리프트(Dc2p), 누적 드리프트(Dcum)—를 추출한다. 여기에 프롬프트 길이, 도메인 군집, 난이도, 모델 식별자와 같은 보조 변수를 포함해 시간‑가변 공변량 벡터 X_{i,t}를 구성한다.
세 가지 서바이벌 모델을 비교한다. Cox 비례위험 모델은 기본 가정인 위험 비율이 시간에 걸쳐 일정함을 전제로 하지만, Schoenfeld 잔차 검정에서 Dp2p와 Dc2p가 비례위험 가정을 위배한다는 사실을 확인한다. 이는 급격한 의미 변동이 특정 턴에서 위험을 급증시키는 비선형 효과를 내포함을 의미한다. 반면 AFT 모델은 공변량이 시간 스케일을 직접 가속·감속한다는 가정을 두어, 로그‑정규, 로그‑로지스틱, Weibull 등 여러 분포를 시험한다. 특히 모델‑드리프트 상호작용을 포함한 AFT는 각 모델별로 급격한 드리프트가 미치는 영향을 정량화할 수 있어, 예를 들어 Claude 3.5는 Dp2p가 0.2 증가할 때 중위수 생존 시간이 30 % 감소하는 반면, Llama 4는 15 % 감소에 그친다.
비선형성을 포착하는 RSF는 변수 중요도와 부분 종속 플롯을 통해 Dp2p와 Dc2p가 초기 턴에서 가장 큰 위험 기여도를 갖는다는 점을 재확인한다. 다만 RSF는 해석 가능성이 낮고, 실시간 위험 모니터링에 필요한 경량화가 어려워 실제 적용에는 한계가 있다.
실험 결과 C‑index 기준으로 AFT(특히 로그‑정규 + 모델‑드리프트 인터랙션)가 0.78로 가장 높은 판별력을 보였으며, Brier score와 캘리브레이션 플롯에서도 가장 잘 맞는 예측을 제공한다. 급격한 의미 드리프트가 위험을 급증시키는 반면, 누적 드리프트는 ‘적응’ 효과를 나타내어 위험을 완화한다는 역설적인 발견은, 대화가 일정 수준의 변화를 겪으며 모델이 내부 상태를 재조정한다는 가설을 뒷받침한다.
마지막으로 논문은 학습된 AFT 모델을 이용해 턴별 위험 점수를 실시간으로 출력하는 경량 모니터를 구현한다. 이 모니터는 위험 임계값을 초과하면 경고를 발생시키며, 실제 테스트에서 70 % 이상의 실패 대화를 첫 번째 불일치 발생 전 평균 2.3턴 앞서 탐지하면서도 오경보 비율을 12 % 이하로 유지한다. 이는 LLM 서비스 운영 시 사전 위험 관리 도구로 활용 가능함을 시사한다.
전반적으로 이 연구는 서바이벌 분석을 LLM 견고성 평가에 도입함으로써, 시간‑의존적 위험 요인을 정량화하고, 실시간 위험 감시 메커니즘을 설계하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기