검증 가능한 보상으로 강화학습하는 사이버 위협 인텔리전스 LLM

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사이버 위협 인텔리전스(CTI) 작업에 특화된 대규모 언어 모델을 강화학습(RL)으로 개선하는 새로운 프레임워크인 Minerva를 제안한다. CTI 표준에서 정의된 식별자와 스키마를 활용해 정량적 검증자를 구축하고, 보상 희소성을 완화하기 위해 정답을 포함한 답변‑조건부 프롬프트를 생성한 뒤 이를 교사 모델을 통해 증류하는 MinervaRL 방식을 도입한다. 실험 결과, 여러 LLM 백본에서 기존 지도학습(SFT) 대비 정확도와 견고성이 일관되게 향상됨을 보였다.

상세 분석

Minerva 논문은 사이버 위협 인텔리전스 분야의 구조화된 출력 요구를 강화학습에 자연스럽게 매핑한다는 점에서 의미가 크다. 기존 CTI 파이프라인은 MITRE ATT&CK, CWE, CVSS 등 표준화된 식별자를 정확히 매핑해야 하는데, 이러한 식별자는 정답이 명확히 정의된 검증 가능한 목표로 활용될 수 있다. 저자들은 이를 “검증 가능한 보상(RLVR)”이라는 개념으로 정형화하고, 각 작업마다 프로그램적 검증자를 구현해 모델 출력이 정답과 일치하는지를 0‑1 스칼라 보상으로 반환한다.

하지만 CTI 작업은 식별자 공간이 수백에서 수천 개에 이르는 장기적 라벨 분포를 가지고 있어, 제한된 롤아웃 수(N=8) 내에 올바른 출력을 샘플링하기 어려운 ‘보상 희소성’ 문제가 발생한다. 이를 해결하기 위해 제안된 MinervaRL은 두 단계의 자기‑학습 메커니즘을 도입한다. 첫 번째 단계에서는 정답 라벨을 프롬프트에 삽입해 “답변‑조건부 생성(Answer‑Conditioned Reasoning, ACR)”을 수행한다. 여기서 모델은 정답과 그에 대한 간단한 설명을 함께 출력하도록 유도되며, 이는 검증자를 통과할 확률을 크게 높인다. 두 번째 단계에서는 EMA(Exponential Moving Average) 교사 모델이 ACR 출력 중 검증을 통과하고 추가적인 텍스트CNN 기반 필터링을 거친 고품질 샘플을 선택한다. 선택된 (프롬프트, 정답‑조건부 출력) 쌍을 원래의 라벨이 없는 프롬프트와 함께 SFT 방식으로 다시 학습시켜, 모델이 라벨 힌트 없이도 정답을 생성하도록 한다.

학습 최적화는 GRPO(Group Relative Policy Optimization)라는 critic‑free PPO 변형을 사용한다. GRPO는 동일 프롬프트에 대해 여러 샘플을 모아 상대적 어드밴티지를 계산함으로써, 보상이 0인 경우에도 상대적인 차이를 이용해 정책을 업데이트한다. 이와 함께 EMA 교사 모델을 주기적으로 업데이트해 안정적인 샘플링을 보장한다.

실험에서는 4개의 오픈‑소스 백본(LLaMA‑7B, LLaMA‑13B, Mistral‑7B, Falcon‑7B)과 12개의 CTI 벤치마크(취약점‑CWE 매핑, CVSS 점수 예측, ATT&CK 기술 추출, 시그마 규칙‑ATT&CK 매핑 등)를 사용했다. 모든 설정에서 MinervaRL은 기존 SFT 및 instruction‑tuned 베이스라인보다 평균 4‑7%p(percentage point) 정도의 정확도 향상을 보였으며, 특히 라벨이 희소한 CWE·MITIGATION 등에서 개선 폭이 크게 나타났다. 또한, 검증 가능한 보상 구조 덕분에 모델 출력의 형식 오류와 식별자 오탈자 비율이 크게 감소해 실무 적용 가능성이 높아졌다.

이 논문의 주요 기여는 (1) CTI 도메인에 특화된 16개 작업을 포함하는 대규모 통합 데이터셋 Minerva‑CTI 구축, (2) 보상 희소성을 완화하는 답변‑조건부 자기‑학습 및 증류 파이프라인인 MinervaRL 제안, (3) 다양한 LLM에 대해 일관된 성능 향상을 입증한 실험적 증거 제공이다. 특히 검증 가능한 보상을 직접 설계함으로써 인간 피드백을 필요로 하는 RLHF와 달리 비용 효율적인 스케일업이 가능하다는 점이 주목할 만하다. 향후 연구에서는 멀티‑모달 CTI(예: 로그 파일, 네트워크 패킷)와 실시간 위협 탐지 파이프라인에 MinervaRL을 적용하고, 검증자 설계 자동화와 더 복잡한 논리적 추론 보상으로 확장하는 방향이 기대된다.

검증 가능한 보상으로 강화학습하는 사이버 위협 인텔리전스 LLM

초록

상세 분석

댓글 및 학술 토론

의견 남기기