LLM 기반 피싱 이메일 탐지를 위한 신뢰도 보정 프레임워크
초록
본 논문은 피싱 이메일 탐지 모델의 신뢰성을 평가하기 위해 보정(calibration), 일관성(consistency), 견고성(robustness) 세 축을 통합한 Trustworthiness Calibration Framework(TCF)를 제안한다. TCF는 각 축을 정량화한 지표들을 결합해 Trustworthiness Calibration Index(TCI)를 산출하고, 데이터셋 간 안정성을 나타내는 Cross‑Dataset Stability(CDS) 지표를 추가한다. SecureMail 2025, Phishing Validation 2024, CSDMC2010, Enron‑Spam, Nazario 등 다섯 개 데이터셋에 대해 DeBERTa‑v3‑base, LLaMA‑3‑8B, GPT‑4를 실험한 결과, GPT‑4가 가장 높은 TCI를 기록했으며, 정확도와 신뢰도가 독립적인 특성을 보임을 통계적으로 확인하였다.
상세 분석
본 연구는 기존의 정확도 중심 평가가 보안 시스템에 충분하지 않다는 점을 지적하고, 모델의 신뢰성을 다차원적으로 측정할 필요성을 강조한다. 첫 번째 축인 보정(calibration)은 모델이 예측 확률을 실제 성공률과 얼마나 일치시키는지를 Brier Score와 Expected Calibration Error(ECE)로 정량화한다. 두 번째 축인 일관성(consistency)은 동일 입력에 대해 다양한 프롬프트 변형이나 미세조정 파라미터 변화에 대한 출력 변동성을 측정하며, 이를 위해 Jensen‑Shannon Divergence와 Pairwise Agreement Ratio를 도입한다. 세 번째 축인 견고성(robustness)은 적대적 교란(예: 문자 삽입, 문맥 변형)과 도메인 이동(예: 새로운 피싱 캠페인) 상황에서 성능 저하 정도를 평가한다. 여기서는 공격 강도별 성공률 감소율과 Domain Shift Accuracy Drop을 사용한다. 각각의 지표는 정규화 과정을 거쳐 0~1 사이로 스케일링되며, 가중치가 동일한 단순 평균을 통해 Trustworthiness Calibration Index(TCI)를 계산한다.
TCI와 별도로 제안된 Cross‑Dataset Stability(CDS)는 여러 데이터셋에 걸친 TCI 변동성을 표준편차와 평균 절대 편차(MAD)로 요약한다. CDS가 낮을수록 모델이 데이터셋 간에 일관된 신뢰성을 유지한다는 의미이다. 실험에서는 다섯 개 데이터셋을 각각 80:20 비율로 학습·검증·테스트 셋으로 분할하고, 동일한 하이퍼파라미터 설정(배치 사이즈 32, 학습률 2e‑5, 3 epoch)으로 모델을 fine‑tune하였다. LLaMA‑3‑8B와 GPT‑4는 프롬프트 엔지니어링을 통해 zero‑shot 및 few‑shot 설정을 모두 적용했으며, DeBERTa‑v3‑base는 전통적인 supervised fine‑tuning만 수행하였다.
결과 분석에서 GPT‑4는 전체 정확도(94.2%)와 함께 ECE(0.04), 일관성 지표(0.92), 견고성 지표(0.88)를 모두 높은 수준으로 유지해 TCI 0.88을 달성했다. LLaMA‑3‑8B는 정확도(91.5%)는 GPT‑4에 근접했지만, 보정 오류가 0.07으로 다소 높아 TCI 0.81을 기록했다. DeBERTa‑v3‑base는 정확도(88.3%)는 가장 낮았으며, 특히 적대적 교란에 취약해 견고성 점수가 0.71에 머물렀다. CDS 측면에서도 GPT‑4는 0.03으로 가장 안정적인 반면, DeBERTa‑v3‑base는 0.09로 변동성이 크다. 통계적 상관 분석에서는 정확도와 TCI 사이의 Pearson r이 0.42에 불과해 두 지표가 독립적임을 확인했다. 이는 실제 운영 환경에서 높은 정확도만으로는 충분하지 않으며, 신뢰도 보정이 필수적임을 시사한다.
또한, 논문은 프레임워크의 재현성을 위해 전체 코드와 데이터 전처리 파이프라인을 공개하고, 평가 메트릭의 구현 세부 사항을 표준화된 스크립트로 제공한다. 이는 향후 연구자들이 다양한 LLM과 새로운 피싱 데이터셋에 대해 동일한 기준으로 신뢰성을 비교할 수 있게 한다. 마지막으로, 저자들은 TCF를 확장하여 스팸, 악성코드, 소셜 엔지니어링 등 다른 사이버 위협 분야에도 적용 가능함을 제안하며, 정책 입안자와 보안 운영팀이 모델 선택 시 신뢰도 지표를 의사결정에 포함하도록 권고한다.
댓글 및 학술 토론
Loading comments...
의견 남기기