멀웨어 바이너리에서 TTP를 자동 추출하는 LLM 기반 에이전트
초록
본 논문은 심볼이 제거된 멀웨어 바이너리의 함수 수준에서 MITRE ATT&CK TTP를 식별하기 위해, 밀집·신경 검색을 결합한 후보 탐색과 컨텍스트 탐색기·TTP‑특화 추론 가이드라인을 갖춘 LLM 에이전트 TTPDetect를 제안한다. 새로 구축한 함수‑TTP 라벨링 데이터셋에서 93% 이상의 정밀도·재현율을 달성했으며, 실제 악성 샘플에서도 87% 이상의 정밀도로 전문가 보고서와 일치하는 TTP를 회복하고, 평균 10.5개의 신규 TTP를 발견한다.
상세 분석
TTPDetect는 멀웨어 분석가가 실제로 수행하는 두 단계 작업을 모델링한다. 첫 번째 단계는 “분석 진입점”을 좁히는 것으로, 전체 바이너리에서 수천 개에 달하는 함수를 모두 LLM에 투입하는 것은 토큰 제한과 연산 비용 때문에 비현실적이다. 이를 해결하기 위해 저자들은 (1) 함수 임베딩 기반의 밀집 검색과 (2) LLM을 활용한 신경 검색을 결합한 하이브리드 리트리버를 설계하였다. 밀집 검색은 대규모 인덱스를 통해 빠르게 후보 함수를 추출하고, 신경 검색은 후보 함수와 ATT&CK 기술 설명 사이의 의미적 일치를 재평가하여 최종 후보 집합을 축소한다.
두 번째 단계는 후보 함수마다 Context Explorer와 TTP‑Specific Reasoning Guideline을 적용하는 함수‑레벨 분석 에이전트이다. Context Explorer는 “caller‑callee” 그래프를 동적으로 탐색하면서, 현재 함수만으로는 판단이 어려운 경우 연관 함수들을 점진적으로 가져온다. 이 과정은 LLM의
TTP‑Specific Reasoning Guideline은 각 ATT&CK 기술마다 정형화된 판단 기준(긍정·부정 예시, 차별화 기준 등)을 사전 정의하고, LLM에게 해당 가이드를 따라 “예/아니오” 형태의 이진 판단을 강제한다. 이렇게 하면 자유형 생성에서 흔히 발생하는 과잉 일반화와 환각(hallucination)을 크게 억제할 수 있다.
데이터 측면에서 저자들은 다양한 플랫폼(Windows, Linux)과 악성 패밀리를 포괄하는 함수‑TTP 라벨링 데이터셋을 구축하였다. 라벨링은 역공학 전문가가 decompiled 함수에 ATT&CK 기술을 수동 매핑한 뒤, 다중 검증 과정을 거쳐 신뢰성을 확보했다.
실험 결과, TTPDetect는 함수‑레벨 TTP 인식에서 정밀도 93.25%, **재현율 93.81%**를 기록했으며, 기존 베이스라인(단순 프롬프트, 후보 제안‑검증 파이프라인)보다 각각 10.38%·18.78% 높은 성능을 보였다. 실제 악성 샘플(수백 개)에 적용했을 때는 정밀도 87.37%를 유지했고, 전문가 보고서와 비교했을 때 85.7%의 TTP를 복구했으며 평균 10.5개의 신규 TTP를 추가로 발견했다.
한계점으로는 (1) 현재는 정적 분석에 국한돼 실행 시점 조건에 의존하는 행동을 놓칠 수 있다, (2) ATT&CK 기술이 지속적으로 업데이트되면서 가이드라인 유지 비용이 발생한다, (3) LLM 자체의 안전 필터링으로 인해 일부 악성 코드를 분석 거부할 가능성이 있다. 향후 연구에서는 동적 시그널(디버그 로그, 실행 트레이스)과의 멀티모달 결합, 자동 가이드라인 업데이트 메커니즘, 그리고 경량화된 온‑디바이스 모델 적용을 제안한다.
전반적으로 TTPDetect는 “밀집·신경 검색 + 단계적 컨텍스트 탐색 + 도메인‑특화 추론”이라는 삼중 구조를 통해, 대규모 스트립드 바이너리에서도 효율적이고 정확하게 ATT&CK TTP를 추출할 수 있음을 입증한다. 이는 기존 정적·동적 분석 도구가 제공하지 못한 함수‑레벨 행동 인사이트를 자동화함으로써, 위협 인텔리전스 파이프라인을 크게 가속화할 잠재력을 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기