시각 언어 모델의 강인성을 높이는 혼합 적대적 프롬프트 튜닝

시각 언어 모델의 강인성을 높이는 혼합 적대적 프롬프트 튜닝
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

대규모 시각-언어 모델(VLM)은 우수한 일반화 능력을 보이지만 적대적 예제에 취약합니다. 기존 적대적 프롬프트 튜닝은 단일 프롬프트로 다양한 공격에 대응하기 어려워 과적합 문제가 있었습니다. 본 연구는 프롬프트 개수를 늘리는 것이 길이를 늘리는 것보다 강인성 향상에 더 효과적임을 발견하고, 여러 개의 짧은 프롬프트를 혼합하고 입력 이미지에 따라 가중치를 동적으로 부여하는 MoAPT 방법을 제안합니다. 11개 데이터셋 실험에서 MoAPT는 기존 최신 방법보다 우수한 적대적 강인성과 일반화 성능을 입증했습니다.

상세 분석

본 논문이 제안하는 MoAPT(Mixture of Adversarial Prompt Tuning)의 기술적 핵심은 두 가지로 요약됩니다. 첫째, ‘다양성 창출을 위한 혼합 프롬프트’입니다. 단일 긴 프롬프트는 최적화 난이도가 높고 텍스트 인코더의 처리 부담을 증가시켜 오히려 성능 저하를 초래할 수 있습니다. 이에 반해 MoAPT는 여러 개의 상대적으로 짧은 기본 프롬프트를 학습시킵니다. 이는 Mixture of Experts(MoE) 패러다임에서 영감을 받아, 각 기본 프롬프트가 서로 다른 ‘전문가’ 역할을 하여 다양한 적대적 공격 패턴에 대응할 수 있는 다양한 텍스트 특징을 생성하도록 유도합니다.

둘째, ‘적응형 결합을 위한 조건부 가중치 라우터’입니다. 단순히 여러 프롬프트의 출력을 평균하는 것은 입력 샘플의 특성을 반영하지 못합니다. MoAPT는 경량의 신경망(두 개의 완전 연결층)으로 구성된 조건부 가중치 라우터를 도입합니다. 이 라우터는 적대적 이미지에서 추출된 이미지 특징을 입력받아, 각 기본 프롬프트에 대한 가중치를 예측합니다. 결과적으로 각 입력 이미지에 대해 ‘샘플 특화형’ 혼합 텍스트 특징이 동적으로 생성되어, 해당 적대적 이미지 특징과 최적으로 정렬될 수 있습니다. 이는 모델의 적응력을 크게 향상시킵니다.

실험적 통찰로는, 프롬프트 파라미터 수를 동일하게 유지할 때, 길이 64의 단일 프롬프트보다 길이 16의 프롬프트 4개를 사용하는 것이 적대적 강인성과 정확도 모두에서 월등히 좋은 성능을 보였습니다. 이는 제안 방법의 근본적 가정을 입증합니다. 또한 MoAPT는 다양한 적대적 공격(예: PGD)과 다양한 다운스트림 데이터셋에 걸쳐 일관되게 우수한 일반화 성능을 보였으며, 전체 모델 파라미터를 조정하는 방법 대비 극히 적은 파라미터만을 학습시켜 효율성도 갖췄습니다.


댓글 및 학술 토론

Loading comments...

의견 남기기