생물보안 인식 AI를 통한 ESM 변이 예측 모델의 소프트 프롬프트 공격 위험 평가

생물보안 인식 AI를 통한 ESM 변이 예측 모델의 소프트 프롬프트 공격 위험 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 유전체 기반 대형 언어 모델인 ESM 시리즈에 대해 소프트 프롬프트를 이용한 적대적 공격을 설계하고, 이를 자동화·해석 가능한 에이전트인 SAGE를 통해 지속적으로 감시·보고함으로써 모델의 보안 취약성을 정량화한다. 실험 결과, 최신 ESM2 모델조차도 악성 변이와 무관한 양성 변이를 병렬적으로 오인하도록 만들 수 있음을 보여준다.

상세 분석

이 연구는 크게 네 가지 핵심 기여를 가진다. 첫째, “Secure Agentic Genomic Evaluator (SAGE)”라는 에이전트 기반 감시 프레임워크를 설계하였다. SAGE는 (1) 입력 서열 앞에 학습 가능한 임베딩 토큰(soft prompt)을 삽입하고, (2) 모델의 출력(PLL 및 PLL R)을 여러 학습 체크포인트에서 자동으로 수집하며, (3) AUROC·AUPR 등 표준 위험 지표를 계산하고, (4) 대형 언어 모델(LLM)을 활용해 각 체크포인트별 위험 원인을 자연어로 서술한다. 이러한 파이프라인은 모델 내부 파라미터를 변경하지 않으면서도 임베딩 공간의 취약점을 지속적으로 탐지한다는 점에서 기존의 사후 분석 방식과 차별화된다.

둘째, 소프트 프롬프트 기반 적대적 공격을 구체화하였다. 공격자는 benign(양성) 변이 샘플에만 손실(L_benign = −log σ̂(λ))을 최소화하도록 프롬프트를 학습한다. 여기서 λ는 wild‑type과 mutant 시퀀스의 pseudo‑log‑likelihood ratio이며, σ̂는 이를 0‑1 구간으로 스케일링한 함수이다. 이 방식은 토큰 수준 교란이 아니라 임베딩 레이어에서 직접 변형을 가함으로써, 입력 서열 자체는 변하지 않으면서 모델의 결정 경계를 왜곡한다.

셋째, 다양한 규모의 GFM(ESM2‑150M, ESM2‑650M, ESM1b‑650M, ESM1v‑


댓글 및 학술 토론

Loading comments...

의견 남기기