시스템 호출 시퀀스에서 모티프 탐지
초록
본 논문은 면역 시스템에서 영감을 얻은 Motif Tracking Algorithm(MTA)을 제안한다. MTA는 최소한의 파라미터와 중립적인 검색 방식을 통해 시계열 데이터, 특히 리눅스 커널과 사용자 공간 사이의 시스템 호출 시퀀스에서 반복되는 미지의 모티프를 자동으로 식별한다. 탐지된 모티프는 데이터 압축 및 프로세스 프로파일링에 활용될 수 있으며, 보안 연구에 새로운 인사이트를 제공한다. 또한 호출 패턴 간 유사성을 측정하기 위한 고수준 호출 언어도 제안한다.
상세 분석
Motif Tracking Algorithm(MTA)은 면역학적 개념인 ‘트래커(tracker)’를 데이터 탐색 단위로 채택한다. 트래커는 초기에는 무작위 혹은 단순한 형태(예: 단일 심볼)로 시작하며, 입력 시계열을 슬라이딩 윈도우 방식으로 스캔한다. 각 윈도우와 트래커 간의 매칭 점수를 계산하고, 일정 임계값을 초과하면 해당 트래커는 ‘성공’으로 기록된다. 성공 횟수가 충분히 누적된 트래커는 증식(proliferation) 단계에서 복제되며, 복제된 트래커는 길이와 구성을 약간 변형(mutation)시켜 새로운 후보 모티프를 탐색한다. 반대로 매칭이 빈번히 실패하는 트래커는 소멸(elimination)되어 검색 공간을 효율적으로 축소한다. 이러한 반복 과정을 통해 MTA는 초기에는 단순한 심볼 집합에서 시작해 점차 복잡하고 긴 모티프를 구성한다. 핵심 파라미터는 매칭 임계값, 증식/소멸 비율, 최대 트래커 길이 등으로, 전체 알고리즘의 민감도와 탐지 정확도를 조절한다.
시스템 호출 시퀀스에 MTA를 적용할 때는 먼저 호출을 의미 있는 심볼 집합으로 매핑한다. 예를 들어, ‘open’, ‘read’, ‘write’, ‘close’와 같은 호출을 각각 고유 코드로 변환하고, 연속 호출 흐름을 문자열처럼 취급한다. 이후 MTA는 이 문자열에서 반복되는 서브시퀀스를 탐색한다. 탐지된 모티프는 원본 데이터의 압축 표현으로 활용될 수 있다. 동일한 모티프가 여러 프로세스에서 반복되면 해당 프로세스의 행동 프로파일을 구축할 수 있으며, 비정상적인 호출 패턴(예: 악성 코드가 삽입한 비정형 시퀀스)은 기존 모티프와의 유사도 저하를 통해 탐지 가능하다. 논문에서는 이러한 프로파일링이 시스템 전반의 행동을 요약하고, 이상 탐지 및 포렌식 분석에 유용함을 실험적으로 입증한다.
또한 저자는 호출 패턴 간 유사성을 정량화하기 위한 고수준 호출 언어(Call System Language, CSL)를 제안한다. CSL은 기본 호출을 토큰화하고, 토큰 간 거리(metric)를 정의해 모티프 간 유사도를 계산한다. 이를 통해 서로 다른 모티프가 실제로는 동일한 기능을 수행하는지, 혹은 변형된 형태인지 판단할 수 있다. 이러한 접근은 기존의 시그니처 기반 탐지 방식이 놓치기 쉬운 변종 악성코드나, 정상적인 시스템 업데이트에 따른 호출 변화까지 포괄적으로 분석할 수 있는 가능성을 열어준다. 전체적으로 MTA는 파라미터 수가 적고 데이터에 대한 사전 가정이 거의 없으며, 확장성이 뛰어나 다양한 시계열 데이터에 적용 가능한 범용적인 모티프 탐지 프레임워크로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기