보안 전용 네이티브 추론 모델, Foundation‑Sec‑8B‑Reasoning 공개

보안 전용 네이티브 추론 모델, Foundation‑Sec‑8B‑Reasoning 공개
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사이버 보안 분야에 특화된 8 B 파라미터 네이티브 추론 모델인 Foundation‑Sec‑8B‑Reasoning을 소개한다. 기존 보안 전용 LLM을 기반으로 두 단계(SFT → RLVR) 학습 파이프라인을 적용해 “” 형태의 사고 과정을 명시적으로 생성하도록 훈련하였다. 2 M개의 합성 데이터와 변동 보상 기반 강화학습을 통해 사이버 위협 인텔리전스, 취약점 분석, 다중 단계 추론 등 10개 보안 벤치마크에서 70 B 규모 모델에 근접하는 성능을 달성했으며, 일반 목적 벤치마크에서도 기존 8 B 인스트럭션 모델과 동등하거나 우수한 결과를 보였다. 안전성 평가는 HarmBench으로 수행했으며, 적절한 시스템 프롬프트와 가드레일 사용 시 안전한 동작을 확인했다. 모델과 코드·데이터는 HuggingFace에 공개된다.

상세 분석

본 연구는 사이버 보안 분야의 고도화된 분석 요구를 충족하기 위해 “생각하고 말한다(think‑then‑speak)” 방식을 채택한 네이티브 추론 LLM을 설계했다. 기본 모델은 Llama‑3.1‑8B‑Base에서 연속 사전학습을 통해 8 B 파라미터 규모의 Foundation‑Sec‑8B를 만든 뒤, 두 단계 파이프라인을 적용한다. 첫 번째 단계인 Supervised Fine‑Tuning(SFT)에서는 2 백만 개 이상의 합성 예시를 활용한다. 데이터는 사이버 보안(≈26 % → 41 %), 수학·코딩(≈20 % → 19 %), 일반 인스트럭션·채팅·과학·안전 등으로 구성돼, 모델이 다양한 도메인에서 사고 흐름을 학습하도록 설계되었다. 학습은 3 epoch, cosine LR 스케줄러, LR = 2e‑5로 진행돼, “” 태그를 포함한 사고 트레이스를 명시적으로 생성하도록 지도한다.

두 번째 단계인 Reinforcement Learning with Variable Rewards(RLVR)에서는 GRPO 알고리즘을 채택하고, 각 프롬프트에 대해 5개의 샘플을 생성 후 태스크‑특화 검증기를 통해 이진 보상을 부여한다. 여기서 두 가지 핵심 문제를 해결했다. 첫째, 데이터 이질성으로 인한 손실 편향을 방지하기 위해 샘플‑레벨 평균 손실을 사용하거나 Dr.GROPO 방식의 손실 집계를 적용해 긴 저품질 시퀀스가 과도하게 영향을 미치지 않도록 했다. 둘째, 보상 해킹을 방지하기 위해 포맷 패널티를 도입, 사고 태그가 누락되거나 비정상적으로 짧은 경우 보상을 감소시켜 사고 트레이스의 존재와 품질을 강제했다. RL 단계는 2 epoch, LR = 1e‑6, KL‑penalty = 0.02로 안정적으로 진행되었다.

평가에서는 10개의 사이버 보안 벤치마크(CTI‑Bench MCQA/RCM/VSP/ATE, CTI‑Reasoning, CWE‑Prediction, MMLU‑Security, CyberMetric‑2000, SecBench, SecEval 등)와 10개의 일반 목적 벤치마크(AlpacaEval 2, BBH, IFEval, GSM8K, HumanEval, MATH 등)를 사용했다. 보안 벤치마크에서는 Llama‑3.3‑70B‑Instruct와 동등한 수준의 정확도를 기록했으며, 특히 다중 단계 추론이 요구되는 CTI‑Reasoning에서 큰 폭의 개선을 보였다. 일반 벤치마크에서는 기존 Foundation‑Sec‑8B‑Instruct와 비슷하거나 AlpacaEval 2에서 현저히 높은 점수를 얻었다. 안전성 평가는 HarmBench을 통해 수행했으며, 적절한 시스템 프롬프트와 가드레일을 적용했을 때 위험한 출력이 거의 발생하지 않았다.

Ablation 연구에서는 SFT 단계만 사용한 모델과 RL 단계까지 적용한 최종 모델을 비교했으며, RL 단계가 사고 정확도와 최종 답변 일관성을 모두 향상시킴을 확인했다. 또한, 포맷 패널티를 제외한 경우 사고 트레이스가 사라지는 현상이 재현돼, 제안된 보상 설계가 필수적임을 입증했다.

이 논문은 사이버 보안이라는 특수 도메인에 네이티브 추론 능력을 성공적으로 이식했으며, 8 B 규모 모델이 70 B 규모 모델과 경쟁할 수 있음을 실증한다. 공개된 모델·데이터는 학계·산업 모두에서 보안 분석 자동화와 인간‑AI 협업 연구에 활용될 전망이다. 다만, 합성 데이터 의존도와 RL 단계에서의 보상 설계 복잡성은 향후 연구 과제로 남는다.


댓글 및 학술 토론

Loading comments...

의견 남기기