CVE 설명 자동 단순화: LLM 활용과 의미 보존 도전

CVE 설명 자동 단순화: LLM 활용과 의미 보존 도전
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 대형 언어 모델(LLM)을 이용해 Common Vulnerabilities and Exposures(CVE) 설명을 자동으로 단순화하는 방법을 탐색한다. 40개의 CVE 설명을 대상으로 GPT‑4o와 오픈소스 Gemma 모델 기반 파이프라인(GemmaAgent)을 적용하고, D‑SARI, BERScore, 의미 유사도, FKGL 등 자동 지표와 사이버 보안 전문가 22명의 인간 평가를 결합해 성능을 측정하였다. 결과는 LLM이 문장을 더 읽기 쉽게 만들 수는 있지만, 의미 보존에서 여전히 큰 어려움을 겪으며, 의미 보존을 강화하려면 용어 설명과 검색 기반 보강이 필요함을 보여준다.

상세 분석

이 논문은 사이버 보안 분야에서 가장 널리 사용되는 취약점 데이터베이스인 CVE의 기술 설명을 비전문가도 이해할 수 있도록 자동 단순화(Automatic Text Simplification, ATS)하는 문제에 초점을 맞춘다. 기존 ATS 연구는 의료·과학·뉴스 등에서 활발히 진행됐지만, 빠르게 변하고 전문 용어가 난해한 사이버 보안 텍스트는 아직 다루어지지 않았다. 저자는 먼저 2025년 CVElistV5에서 무작위로 100개의 CVE 설명을 추출하고, 그 중 40개를 인간 평가용 테스트셋으로 선정했다. 비자연어(로그 코드 등)는 사전 정제 과정을 거쳐 제거했으며, 이는 단순화 대상이 자연어 문장임을 명확히 하기 위함이다.

모델 측면에서는 두 가지 접근을 비교한다. 첫 번째는 Azure OpenAI API를 통해 제공되는 최신 GPT‑4o(gpt‑4o‑2024‑11‑20)를 사용한 ‘아웃‑오브‑박스’ 방식이다. 초기 단순화는 문장 단위로 수행했으며, 이후 인간 평가 결과를 반영해 동일 모델을 GUI 환경에서 문서 전체 수준으로 재단순화했다. 두 번째는 오픈소스 4 B 파라미터 Gemma 모델을 기반으로 한 에이전트 시스템(GemmaAgent)이다. 이 파이프라인은 (1) AITSecNER 기반 명명된 개체 인식으로 핵심 용어를 추출하고, (2) 사이버 보안 사전·용어집에 접근하는 Retrieval‑Augmented Generation(RAG) 에이전트가 용어별 설명을 생성하며, (3) 최종 단순화 에이전트가 원문과 용어 설명을 결합해 간결한 문장을 출력한다.

평가 지표는 크게 두 축으로 나뉜다. 자동 지표로는 문서 수준 SARI 변형인 D‑SARI, Flesch‑Kincaid Grade Level(FKGL), 그리고 의미 보존을 측정하는 BERScore, MeaningBERT, Sentence‑BERT 기반 의미 유사도가 사용되었다. D‑SARI는 원문·참조·생성문을 비교해 삽입·삭제·보존 연산을 점수화하지만, 참조가 제한적이어서 전체 점수가 낮게 나타났다(최고 0.14). 의미 보존 측면에서는 반자동으로 만든 ‘Semi‑synthetic’ 데이터와 GemmaAgent가 가장 높은 점수를 기록했으며, 특히 GemmaAgent는 RAG를 통해 용어 설명을 삽입함으로써 의미 손실을 최소화했다. FKGL은 GPT‑4o가 원문(12.45) 대비 9.49로 가장 큰 감소를 보였으며, 이는 문장을 더 짧고 단어당 음절 수를 줄인 결과다.

인간 평가에서는 두 차례 설문을 진행했다. 첫 라운드(12명)에서는 “단순화가 원문보다 이해하기 쉬운가?”와 “단순화가 의미를 보존하는가?” 두 질문에 3점 Likert(동의/중립/비동의)로 답하게 했으며, 80% 이상 동의하고 비동의가 없을 경우 고품질로 간주해 두 번째 라운드에서 제외했다. 두 번째 라운드(10명)는 초기와 개선된 두 버전을 모두 평가하고, 개선 버전이 더 나은지 추가 질문했다. 결과는 40개 중 5개만이 첫 라운드에서 수정 없이 통과했으며, 나머지는 의미 손실이나 부정확한 용어 처리 때문에 재단순화가 필요했다. 특히 GPT‑4o는 버전 번호와 같은 정밀 정보를 종종 변형했으며, 이는 프롬프트에 “숫자는 그대로 유지”와 같은 명시적 지시가 필요함을 시사한다.

전반적으로 연구는 (1) LLM이 문장을 더 읽기 쉽게 만들 수는 있지만, 의미 보존과 정확한 기술 용어 처리에서 아직 한계가 있다, (2) 용어 설명을 포함한 RAG 기반 접근이 의미 보존에 유리하지만 텍스트 복잡도 감소에는 크게 기여하지 못한다, (3) 자동 지표만으로는 실제 의미 손실을 충분히 포착하기 어려워 인간 전문가 평가가 필수적이다는 점을 강조한다. 향후 연구는 더 큰 규모의 인간 검증된 참조 데이터 구축, 프롬프트 설계 최적화, 그리고 의미 보존을 보장하는 제어 가능한 LLM 프레임워크 개발을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기