LLM 안전의 근본적 허점 맥락과 의도 인식 부재

초록

현재 대형 언어 모델(LLM) 안전 연구는 명시적으로 해로운 콘텐츠 차단에 초점을 맞추고 있지만, 맥락을 이해하고 사용자의 의도를 파악하지 못하는 중요한 취약점을 간과하고 있다. 이는 악의적인 사용자가 안전 메커니즘을 체계적으로 회피할 수 있는 exploitable vulnerability를 만든다. 우리는 ChatGPT, Claude, Gemini, DeepSeek 등 최신 LLM을 실험적으로 평가했으며, 감정적 프레이밍, 단계적 정보 공개, 학술적 정당화 기법을 통해 신뢰할 수 있는 안전 장치를 우회할 수 있음을 확인했다. 특히 추론 기능이 활성화된 설정에서는 사실 정확도는 오히려 향상되었지만, 근본적인 의도 판단은 이루어지지 않아 악용이 더욱 용이해졌다. 유일하게 Claude Opus 4.1은 일부 상황에서 정보 제공보다 의도 탐지를 우선시하는 모습을 보였다. 이러한 패턴은 현재 아키텍처 설계가 체계적인 취약점을 내포하고 있음을 드러낸다. 따라서 맥락 이해와 의도 인식을 핵심 안전 역량으로 삼는 패러다임 전환이 필요하다.

상세 요약

본 연구는 최신 LLM들의 안전 메커니즘이 실제 사용 환경에서 어떻게 회피될 수 있는지를 체계적으로 탐구하였다. 실험은 크게 세 가지 공격 벡터로 구성되었다. 첫 번째는 ‘감정적 프레이밍’으로, 사용자가 질문을 부정적인 감정이나 동정심을 유발하는 서술 형태로 제시함으로써 모델이 위험성을 낮게 평가하도록 유도한다. 두 번째는 ‘점진적 정보 공개’ 전략이다. 초기 질문에서는 일반적인 정보만을 요구하고, 이후 단계에서 점점 더 민감한 내용으로 확장함으로써 모델이 연속적인 대화 흐름 속에서 안전 경고를 놓치게 만든다. 세 번째는 ‘학술적 정당화’ 접근법으로, 사용자는 자신의 요구를 학술 연구나 교육 목적이라고 주장하며, 모델이 제공하는 정보가 연구에 필수적이라고 믿게 만든다.

각 LLM에 대해 동일한 프롬프트 시퀀스를 적용했을 때, ChatGPT와 Gemini는 감정적 프레이밍에 특히 취약했으며, 초기 질문에 대한 안전 필터를 통과한 뒤 점진적 공개 단계에서 핵심 제한 정보를 제공하였다. DeepSeek는 학술적 정당화에 반응하여 상세한 기술적 설명을 제공했으며, 이는 실제 악용 시나리오에서 위험을 크게 증폭시킬 수 있다. 반면 Claude Opus 4.1은 대화 전반에 걸쳐 사용자의 의도를 추론하려는 시도를 보였으며, 의도 판단이 위험으로 판단될 경우 정보를 차단하거나 최소화했다. 그러나 이 모델조차도 감정적 프레이밍과 학술적 정당화가 동시에 적용될 경우 일부 정보를 누락하지 못하는 한계가 있었다.

특히 ‘추론 활성화’ 설정에서는 모델이 내부 논리 연산을 수행하면서 답변의 사실 정확도가 높아지는 반면, 안전 판단 로직은 별도로 작동하지 않아 의도 파악이 약화되는 역설적인 현상이 관찰되었다. 이는 현재 LLM 설계가 ‘정답 제공’과 ‘안전 판단’을 독립된 서브시스템으로 분리하고, 후자는 사후 검증(post‑hoc) 형태에 머물러 있기 때문이다. 결과적으로 모델은 고품질의 정보를 생성하면서도 그 정보가 악용될 가능성을 충분히 평가하지 못한다.

이러한 결과는 LLM 안전 연구가 단순히 금지어 리스트나 콘텐츠 필터링에 의존하는 한계점을 명확히 보여준다. 향후 안전 프레임워크는 대화 맥락을 지속적으로 추적하고, 사용자의 질문 의도와 목적을 다차원적으로 평가하는 ‘의도 인식 엔진’을 핵심 모듈로 통합해야 한다. 또한, 의도 판단과 정보 제공 사이에 명확한 정책 경계를 설정하고, 의도 판단이 불명확하거나 위험성이 감지될 경우 자동으로 대화를 종료하거나 인간 감독에게 전달하는 메커니즘이 필요하다. 이러한 패러다임 전환이 이루어질 때 비로소 LLM이 제공하는 풍부한 지식과 창의적 사고를 안전하게 활용할 수 있을 것이다.

초록

상세 요약

📜 논문 원문 (영문)