텍스트 분류에서 적대적 견고성‑성능 트레이드오프를 깨는 매니폴드 정화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전학습 언어 모델의 문장 임베딩 공간에서 깨끗한 데이터와 적대적 샘플이 서로 다른 저차원 매니폴드에 존재한다는 실험적 증거를 제시하고, 이를 기반으로 두 단계(검출‑정화) 방식을 설계한다. 첫 단계는 학습된 리만 메트릭을 활용한 연속 정규화 흐름(SR‑CNF)으로 깨끗한 매니폴드의 밀도를 추정해 OOD(적대적) 임베딩을 식별한다. 두 번째 단계는 기하학적 최단 경로(geodesic)를 따라 적대적 임베딩을 매니폴드 위로 투사하는 정화 솔버를 적용한다. SST‑2, AG‑News, IMDB 등 3개 데이터셋과 TextFooler, BERT‑Attack 등 다중 공격에 대해 실험한 결과, 기존 방어 기법 대비 적대적 정확도에서 최고 수준을 달성하면서도 클린 정확도는 유지하거나 약간 향상된다.

상세 분석

이 연구는 먼저 BERT 기반 인코더의 고차원 임베딩을 시각화(PCA, t‑SNE, UMAP)하고, MMD·JSD·Wasserstein 거리와 Local Intrinsic Dimensionality(LID) 분석을 통해 “깨끗한 임베딩”과 “공격된 임베딩”이 통계적으로 유의미하게 다른 분포와 기하구조를 가진다는 사실을 입증한다. 특히 LID가 공격 샘플에서 현저히 상승한다는 점은 적대적 변형이 임베딩을 더 복잡한 지역, 즉 고차원 구역으로 이동시킨다는 강력한 증거다. 이러한 관찰을 바탕으로 두 가지 가설을 제시한다. 첫째, 두 집합이 서로 구분 가능한 저차원 매니폴드에 존재한다는 ‘매니폴드 분리성’ 가설; 둘째, 매니폴드가 균일하지 않고 여러 층(strata)으로 구성되어 각 층마다 고유한 기하학적 특성을 가진다는 ‘층화 매니폴드 구조’ 가설이다.

이후 제안된 MC²F 프레임워크는 이러한 가설을 구현한다. 검출 모듈인 SR‑CNF은 연속 정규화 흐름을 리만 메트릭 위에서 정의한다. 메트릭 텐서는 Mixture‑of‑Experts(MoE) 네트워크를 통해 입력 임베딩마다 가중치를 부여받은 K개의 전문가 네트워크가 생성한 양의 정부호 행렬들의 가중합으로 동적으로 학습된다. 이는 임베딩 공간의 지역별 곡률을 정밀하게 모델링해 복잡한 매니폴드 형태를 포착한다. CNF 자체는 ODE 형태의 벡터 필드를 통해 표준 정규분포에서 시작해 임베딩을 변환하며, 리만 발산(term)으로 로그밀도 변화를 추적한다. 학습 시에는 (1) NLL 손실로 밀도 추정 정확도를, (2) 토폴로지 손실(L_topo)로 역변환 시 원본 임베딩과의 거리 최소화를, (3) 인과 손실(L_causal)로 정화된 임베딩이 원래 분류기 출력과 일치하도록 하는 세 가지 목적을 가중합한다.

정화 모듈인 Geodesic Purification Solver는 OOD로 판단된 임베딩 z_adv에 대해 현재 메트릭 G(z) 하에서 가장 짧은 지오데식 경로를 계산한다. 이는 변분 최적화 문제로, 경로 길이(리만 거리)를 최소화하면서 매니폴드 상의 점 z*에 도달하도록 한다. 구현상은 자동 미분 기반의 최적화 루프를 사용해 몇 단계만에 수렴한다. 정화된 임베딩은 원래 분류기 C에 그대로 입력되므로, 별도의 재학습이 필요 없으며, 클린 데이터에 대해서는 검출 단계에서 바로 통과한다.

실험에서는 SST‑2(감성), AG‑News(주제), IMDB(감성) 세 데이터셋에 대해 TextFooler, BAE, BERT‑Attack, PWWS 등 5가지 공격을 적용했다. MC²F는 기존의 Adversarial Training, Free‑AT, DAD, MMD‑based OOD 방어와 비교했을 때, 공격 성공률을 30‑45% 수준으로 크게 낮추면서도 클린 정확도는 0.2%~0.7% 상승하거나 최소 0.0% 손실만을 보였다. 특히 “정화 후” 임베딩의 LID가 원본 클린 임베딩과 거의 일치함을 확인해, 정화가 실제로 매니폴드 복원을 수행함을 실증했다.

이 논문의 주요 기여는 (1) 텍스트 임베딩 공간에서의 매니폴드 분리 현상을 정량·정성적으로 입증한 점, (2) 리만 메트릭 기반 연속 정규화 흐름을 이용해 고차원 매니폴드를 정확히 모델링한 새로운 OOD 검출 기법, (3) 기하학적 최단 경로를 통한 적대적 샘플 정화 메커니즘을 제시해 기존 방어와 달리 성능 저하 없이 견고성을 확보한 점이다. 향후 연구에서는 메트릭 학습을 더 경량화하거나, 다른 언어·멀티모달 모델에 적용해 일반화 가능성을 탐색할 여지가 있다.

텍스트 분류에서 적대적 견고성‑성능 트레이드오프를 깨는 매니폴드 정화

초록

상세 분석

댓글 및 학술 토론

의견 남기기