에이전트 지식 증류를 활용한 SMS 위협 탐지용 소형 언어 모델 자동 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)을 자율적인 교사 에이전트로 활용해, 합성 데이터를 지속적으로 생성·검증하며 소형 언어 모델(SLM)을 반복적으로 미세조정하는 “에이전트 지식 증류” 프레임워크를 제안한다. 네 종류의 최신 LLM(Claude Opus 4.5, GPT 5.2 Codex, Gemini 3 Pro, DeepSeek V3.2)을 교사로, Qwen2.5‑0.5B와 SmolLM2‑135M을 학생 모델로 사용해 SMS 스팸·스미싱 탐지 실험을 수행했으며, 교사 LLM의 품질에 따라 학생 모델 성능이 크게 달라짐을 확인했다. 또한 동일한 합성 데이터와 LoRA 설정을 사용한 Direct Preference Optimisation(DPO) 기반 비에이전트 방식과 비교해, 폐쇄형 피드백 루프와 목표 지향적 데이터 보강이 성능 향상에 핵심임을 입증하였다.

상세 분석

본 연구는 지식 증류(Knowledge Distillation)의 전통적 접근을 탈피하여, 교사 LLM이 인간의 개입 없이 데이터 파이프라인을 설계·실행하는 완전 자동화된 학습 에이전트 역할을 수행하도록 설계하였다. 핵심 흐름은 다음과 같다. 첫 단계에서 교사 LLM은 “SMS 위협 탐지”라는 작업 명세와 평가 기준을 입력받아, 도메인 지식에 기반한 합성 SMS 데이터셋을 생성한다. 이때 스팸과 정상 메시지를 1:1 비율로 균등하게 만들며, 피싱, URL 단축, 동형문자, 암호화폐 사기 등 최신 공격 패턴을 포괄한다. 생성된 데이터는 LoRA(Low‑Rank Adaptation)를 이용해 학생 SLM을 효율적으로 미세조정하는데 사용된다. LoRA는 전체 파라미터를 고정하고 소수의 저차원 행렬만 학습함으로써, 0.5 B~135 M 규모 모델을 소비자 디바이스에서도 실시간 추론이 가능하도록 만든다.

미세조정 후 교사 LLM은 동일하게 사전에 고정된 합성 검증셋에 대해 정확도, 정밀도, 재현율, FP·FN 비율 등 메트릭을 수집한다. 이 메트릭은 외부 실제 라벨 데이터와는 완전히 격리돼 있으며, 교사 LLM에게 피드백으로 전달된다. 교사는 메트릭이 수렴했는지 판단하고, 수렴하지 않았다면 오류 패턴을 가정한다. 예를 들어 FP 비율이 높으면 정상 서비스 알림을 오분류하는 경향이 있다고 추정하고, 해당 유형을 타깃으로 한 추가 합성 데이터를 생성한다. 이렇게 목표 지향적 데이터 보강과 재학습을 반복함으로써, 교사 LLM은 자체적인 오류 분석 루프를 완성한다.

실험에서는 네 종류의 교사 LLM이 동일한 파이프라인에 투입되었으며, 각 교사‑학생 조합에 대해 최종 테스트셋인 SMS Spam Collection을 이용해 실제 성능을 측정했다. 결과는 교사 LLM의 내재된 언어 이해·생성 능력이 학생 모델 성능에 직접적인 영향을 미친다는 점을 강조한다. 가장 강력한 Claude Opus 4.5‑Qwen2.5 조합은 94.31% 정확도와 96.25% 재현율을 달성했으며, 반면 DeepSeek V3.2‑SmolLM2 조합은 86% 수준에 머물렀다.

비교 대상으로 설정한 DPO 기반 비에이전트 방법은 동일한 합성 데이터와 LoRA 설정을 사용했지만, 한 번의 정적 학습만 수행한다. 이 경우 정확도가 50~80%에 불과해, 폐쇄형 피드백 루프와 목표 지향적 데이터 생성이 성능 격차를 만든 핵심 요인임을 실증한다. 또한, 교사 LLM이 자체적으로 스크립트를 작성·실행하고 라이브러리를 설치하는 등 전통적인 ML 엔지니어링 작업을 자동화함으로써, 인간 전문가의 개입 없이도 최신 위협에 빠르게 대응 가능한 파이프라인을 구현했다.

이러한 접근은 몇 가지 중요한 시사점을 제공한다. 첫째, 대형 LLM을 교사 에이전트로 활용하면 라벨링 비용과 데이터 시점 문제를 크게 완화할 수 있다. 둘째, 합성 데이터의 품질은 교사 모델의 도메인 지식과 생성 능력에 크게 좌우되므로, 교사 LLM 선택이 전체 시스템 성능을 좌우한다. 셋째, 폐쇄형 피드백 루프와 오류 기반 데이터 보강은 전통적인 정적 증류 방식보다 훨씬 높은 일반화 성능을 제공한다. 마지막으로, LoRA와 같은 파라미터 효율적 미세조정 기법과 결합하면, 수백만 파라미터 규모의 모델도 모바일 디바이스에서 실시간 보안 필터링으로 활용 가능하다.

에이전트 지식 증류를 활용한 SMS 위협 탐지용 소형 언어 모델 자동 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기