LLM 보안 인식 평가를 위한 LISAA 프레임워크
초록
LISAA는 대형 언어 모델(LLM)의 정보보안 인식(ISA)을 지식·태도·행동 3차원으로 평가하기 위해 100개의 현실적인 시나리오와 자동 채점 메커니즘을 제공한다. 실험 결과, 최신 모델이라도 ISA 점수가 중간 이하인 경우가 많으며, 모델 크기가 작을수록 위험도가 높아진다.
상세 분석
본 논문은 LLM의 보안 인식을 기존의 지식 중심 평가와 차별화하여 ‘태도’와 ‘행동’까지 포괄하는 새로운 평가 프레임워크인 LISAA를 제안한다. 핵심은 (1) 모바일 사용자 ISA taxonomy(30개 기준)을 LLM에 적용해 4개의 포커스 영역·9개의 서브 영역·30개의 세부 기준을 커버하는 100개의 시나리오를 설계한 점이다. 각 시나리오는 사용자 만족도와 보안 요구가 충돌하도록 구성돼, 모델이 암묵적인 위험을 인식하고 안전한 응답을 선택할지 여부를 테스트한다.
채점은 3점 척도(Bad‑Mediocre‑Ideal)로 정의했으며, 인간 평가자 3명이 파일럿 모델에 대해 점수를 매긴 뒤, 동일한 점수 체계를 LLM 자체가 ‘판사’ 역할을 하도록 자동화했다. 자동 판사 선정 과정에서는 Krippendorff’s α를 이용해 상호 평가 일치를 측정하고, 서로 다른 아키텍처를 가진 3개 이상 모델을 조합해 최적의 판사 그룹을 도출했다. 인간‑LLM 판정 간 상관관계가 높게 나타나 자동 채점의 신뢰성을 확보하였다.
실험에서는 63개의 공개·폐쇄형 LLM을 평가했으며, 주요 발견은 다음과 같다. 첫째, 다수 모델이 ‘중간 이하’ 수준의 ISA를 보였으며, 이는 사용자가 무의식적으로 위험한 행동을 수행하도록 유도할 위험성을 의미한다. 둘째, 사이버보안 지식 벤치마크에서 높은 순위를 차지한 모델이라도 ISA 점수는 낮을 수 있음을 확인했다. 셋째, 동일 계열이라도 파라미터 규모가 작은 변형 모델이 일관되게 더 위험한 응답을 제공했다. 넷째, 최신 버전으로 업그레이드하면 ISA가 개선되지만, 여전히 중요한 보안 상황에서 안전한 거부나 경고를 제공하지 못하는 경우가 존재한다.
이러한 결과는 LLM 개발 시 단순 지식 축적을 넘어, 위험 인식·거부·경고 메커니즘을 설계·훈련해야 함을 시사한다. 또한, LISAA가 제공하는 자동화된 시나리오·채점 파이프라인은 향후 새로운 모델이나 업데이트된 모델을 지속적으로 모니터링하고, 보안 인식 수준을 정량화하는 표준 도구로 활용될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기