사용자 맞춤형 피싱 탐지: RAG와 LLM 융합 프레임워크

사용자 맞춤형 피싱 탐지: RAG와 LLM 융합 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 개인 이메일 히스토리를 기반으로 실시간 위협 정보를 결합한 Retrieval‑Augmented Generation(RAG) 방식을 LLM에 적용해 피싱 탐지 정확도를 높이고 오탐률을 크게 낮추는 방법을 제시한다. 4개의 오픈소스 LLM(Llama4‑Scout, DeepSeek‑R1, Mistral‑Saba, Gemma2)을 실험했으며, Llama4‑Scout는 F1 0.9703, FP 66.7% 감소라는 성과를 보였다.

상세 분석

이 연구는 기존 규칙 기반·전통 머신러닝 방식이 최신 피싱 공격의 변형에 취약하고, 특히 오탐률이 높아 운영 부담을 가중시킨다는 문제점을 정확히 짚는다. 이를 해결하기 위해 두 단계의 컨텍스트를 RAG 형태로 제공한다. 첫 번째는 사용자의 과거 정상 이메일을 의미론적 임베딩(MiniLM‑L6‑v2)으로 변환해 FAISS 벡터 DB에 저장하고, 코사인 유사도 기반 k‑NN 검색으로 가장 유사한 5개 메일을 추출한다. 두 번째는 VirusTotal 등 다중 엔진 위협 인텔리전스 API를 통해 발신 도메인·본문 URL의 최신 평판 정보를 실시간으로 수집한다. 이렇게 구성된 ‘사용자‑특화 히스토리’와 ‘실시간 위협 인텔리전스’는 프롬프트에 구조화된 형태로 삽입돼 LLM이 판단 근거를 명시하도록 설계되었다. 프롬프트는 역할 지정(‘사이버 보안 전문가’), 이메일 본문, 검색된 히스토리, 위협 점수, 그리고 JSON 스키마 기반 출력 규격을 포함한다.

모델 선택에서는 파라미터 규모(9B70B), 아키텍처(희소 MoE vs Dense), 컨텍스트 윈도우(8k131k) 등 다양한 특성을 고려해 4종을 평가했다. 실험 데이터는 500통(정상 250, 피싱 250)으로, 실제 사용자 메일과 공개 피싱 저장소를 균형 있게 구성했으며, 개인정보 보호를 위해 주소 로컬 파트는 익명화하고 첨부파일은 제외했다.

성능 결과는 RAG 적용 전후를 비교했을 때 모든 모델에서 FP가 평균 60% 이상 감소했으며, 특히 Llama4‑Scout는 FP 4% → 1.33%(66.7% 감소)와 F1 0.9703을 기록했다. 모델 크기에 비례해 성능 향상이 일관되었으며, 17B 파라미터 모델도 70B 모델에 근접한 개선을 보였다. 이는 사용자 맞춤형 컨텍스트가 모델 규모에 크게 의존하지 않음을 시사한다.

또한, 시스템 구현은 Groq API를 이용해 저지연 추론을 실현했으며, 온도 0.2, 시스템 메시지 고정 등 파라미터 튜닝을 통해 응답 일관성을 확보했다. 출력은 JSON 스키마에 맞춰 자동 파싱되며, 오류 시 재시도 로직을 포함해 실운용 안정성을 높였다.

한계점으로는 데이터셋 규모가 작아 실제 기업 환경에서의 확장성 검증이 부족하고, 위협 인텔리전스 제공자의 API 호출 비용 및 지연이 실시간 서비스에 미치는 영향을 정량화하지 않은 점을 들 수 있다. 향후 연구에서는 대규모 기업 메일 로그와 멀티‑모달 피싱(이미지·첨부 파일)까지 확장하고, 프라이버시 보호를 위한 연합 학습(Federated Learning)과 차등 개인정보 보호 기법을 결합하는 방안을 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기