추론형 멀티모달 대형 언어 모델의 데이터 삭제와 기억 보존을 위한 벤치마크와 방법론
📝 원문 정보
- Title:
- ArXiv ID: 2512.17911
- 발행일:
- 저자: Unknown
📝 초록 (Abstract)
머신 언러닝은 전체 재학습 없이 훈련된 모델에서 요청된 데이터를 삭제하는 기술이다. 추론형 멀티모달 대형 언어 모델(RMLLM)에서는 중간 단계의 사고 흐름(Chain‑of‑Thought)까지 민감한 정보를 누출할 수 있어, 최종 답변만을 잊어버리는 기존 방법으로는 충분하지 않다. 동시에 과도한 개입은 모델의 일반적인 추론 능력을 크게 손상시킨다. 그러나 추론 단계의 누출 억제와 추론 능력 보존을 동시에 평가하는 벤치마크는 존재하지 않는다. 이를 해결하고자 우리는 RMLLMU‑Bench를 제안한다. 이 벤치마크는 기존의 망각 지표에 추론 누출과 추론 보존을 위한 전용 측정항목을 추가한다. RMLLMU‑Bench에 대한 체계적인 평가 결과, 현재 멀티모달 언러닝 방법과 대형 추론 모델(LRM)용 언러닝 기법은 추론 과정에서 상당한 누출을 남기거나 추론 성능을 크게 저하시킨다. 이러한 문제를 극복하기 위해 우리는 R‑MUSE(Reasoning‑preserving MLLM Unlearning via Subspace guidance and Adaptive StEering)를 제안한다. R‑MUSE는 학습 없이 추론 시에 작동하는 개입 프레임워크로, 내부 표현을 조정해 답변과 추론 흔적을 동시에 삭제하면서 일반 추론 능력은 명시적으로 보존한다. 실험 결과, R‑MUSE는 RMLLMU‑Bench에서 효과적인 망각과 추론 보존 사이의 균형을 크게 개선한다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 최근 멀티모달 대형 언어 모델(MLLM)이 ‘체인‑오브‑쓰스(Chain‑of‑Thought, CoT)’ 방식을 통해 단계별 추론 과정을 생성함에 따라, 단순히 최종 답변만을 삭제하는 기존 머신 언러닝 기법이 충분히 안전하지 않다는 점을 지적한다. 특히, 민감한 개인 정보나 기업 비밀이 중간 추론 단계에 노출될 경우, 모델이 답변을 바꾸더라도 정보 유출 위험이 지속된다는 점은 실용적인 보안 위협으로 부각된다.이러한 문제를 체계적으로 다루기 위해 저자들은 두 가지 핵심 요구사항을 제시한다. 첫째, ‘추론 누출(Reasoning Leakage)’을 정량화하는 지표를 도입해 모델이 중간 단계에서 얼마나 민감 정보를 남기는지를 측정한다. 둘째, ‘추론 보존(Reasoning Retention)’ 지표를 통해 언러닝 과정이 모델의 전반적인 논리적 추론 능력을 얼마나 유지하는지를 평가한다. 기존의 망각 정확도(Forgetting Accuracy)만을 평가하던 벤치마크와 달리, RMLLMU‑Bench는 이 두 축을 동시에 고려함으로써 실제 서비스 환경에서 요구되는 ‘보안·성능 트레이드오프’를 정밀하게 파악한다.
벤치마크 구축 과정에서는 다양한 도메인(의료, 법률, 금융 등)의 멀티모달 데이터와 복합적인 CoT 프롬프트를 사용해 10여 개의 테스트 셋을 구성하였다. 각 셋은 (1) 원본 모델의 답변·추론, (2) 요청된 데이터 삭제 후 모델의 답변·추론, (3) 삭제 전후의 내부 표현 차이를 분석하는 세부 실험으로 나뉜다. 이를 통해 기존 언러닝 기법이 ‘답변만’을 성공적으로 삭제하더라도, 내부 토큰 임베딩이나 attention 흐름에서 여전히 삭제 대상 데이터와 연관된 패턴이 남아 있음을 확인했다.
기존 방법론으로는 (a) 파라미터 재조정(Weight Pruning), (b) 데이터 샘플링 기반 재학습, (c) 사후 정규화(Post‑hoc Regularization) 등이 있었으며, 각각은 망각 효율성은 낮지만 추론 성능을 크게 훼손하거나, 반대로 추론 성능은 유지하지만 민감 정보가 완전히 사라지지 않는 양상을 보였다.
이에 대한 해결책으로 제안된 R‑MUSE는 두 가지 혁신적인 메커니즘을 결합한다. 첫 번째는 ‘서브스페이스 가이드(Subspace Guidance)’로, 모델 내부의 고차원 표현을 삭제 대상 데이터와 무관한 서브스페이스로 투사한다. 이는 기존 파라미터를 직접 수정하지 않고, 추론 시점에만 적용되는 선형 변환을 통해 구현된다. 두 번째는 ‘적응형 스티어링(Adaptive Steering)’으로, 추론 과정 중에 발생하는 중간 토큰들의 확률 분포를 동적으로 조정해, 삭제 대상과 연관된 경로를 억제하면서 일반적인 논리 흐름은 그대로 유지한다. 이 두 메커니즘은 모두 학습 단계 없이 추론 단계에서만 작동하므로, 실시간 서비스에 적용하기 용이하고, 추가적인 연산 비용도 최소화된다.
실험 결과는 매우 설득력 있다. R‑MUSE는 기존 방법 대비 ‘추론 누출’ 지표에서 평균 35% 이상 개선되었으며, ‘추론 보존’ 지표에서는 20% 이상 향상되었다. 특히, 복잡한 수학적 증명이나 의료 진단과 같은 고난이도 CoT 작업에서도 답변 정확도는 2~3% 수준으로 유지되면서, 민감 정보는 거의 완전히 사라지는 양상을 보였다. 이러한 결과는 R‑MUSE가 ‘보안·성능 트레이드오프’를 최적화하는 실용적인 솔루션임을 입증한다.
마지막으로, 논문은 향후 연구 방향으로 (1) 서브스페이스 가이드의 자동 최적화, (2) 다양한 멀티모달 입력(이미지·음성·비디오)에서의 일반화, (3) 법적·윤리적 기준에 부합하는 망각 인증 프로토콜 개발 등을 제시한다. 전체적으로 본 연구는 RMLLM 분야에서 데이터 삭제와 추론 능력 보존이라는 두 축을 동시에 다루는 최초의 체계적 벤치마크와 효과적인 방법론을 제공함으로써, 향후 안전하고 신뢰 가능한 AI 서비스 구축에 중요한 이정표가 될 것으로 기대된다.