모델이 데이터를 외웠는지 알아내는 방법은?

읽는 시간: 8 분
...

📝 원문 정보

- Title: Exploring Approaches for Detecting Memorization of Recommender System Data in Large Language Models
- ArXiv ID: 2601.02002
- 발행일: 2026-01-05
- 저자: Antonio Colacicco, Vito Guida, Dario Di Palma, Fedelucio Narducci, Tommaso Di Noia

📝 초록

이 논문에서는 대형 언어 모델(LLMs)의 데이터 기억 문제를 다루며, 특히 추천 시스템에서 사용되는 MovieLens-1M 데이터셋을 통해 LLMs가 얼마나 많은 훈련 데이터를 기억하는지 탐색합니다. 우리는 수동 프롬프팅, 무감독 잠재 지식 발견, 자동 프롬프트 엔지니어링 세 가지 접근 방법을 사용하여 이 문제를 해결하고자 합니다.

💡 논문 해설

1. **영화 제목 기억** LLMs는 영화 제목들을 아주 잘 기억하는 것으로 나타났습니다. 이를 통해 모델은 실제 MovieLens 데이터셋의 일부인 영화 제목을 인식할 수 있습니다. 이는 마치 우리가 좋아하는 영화를 보면 그 내용까지 떠올리는 것과 비슷합니다.
  1. 사용자와 평점 정보
    그러나 사용자 ID나 평점 같은 숫자들에 대해서는 잘 기억하지 못했습니다. 이는 특정 숫자들을 기억하기가 어렵다는 것을 의미하며, 마치 낯선 사람의 전화번호를 쉽게 기억하는 것이 힘든 것과 같아요.

  2. 자동 프롬프트 생성
    자동 프롬프트 엔지니어링은 수동으로 프롬프트를 만드는 데 필요한 시간을 줄이고, 모델이 기억한 데이터를 찾는 데 도움을 줍니다. 이 방법은 우리가 컴퓨터에게 특정 작업을 수행하라고 명령할 때 사용하는 것과 같아요.

📄 논문 발췌 (ArXiv Source)

\[ email=a.colacicco1@studenti.poliba.it, \]

[ email=v.guida@studenti.poliba.it, ]

[ email=dario.dipalma@poliba.it, ]

[ email=fedelucio.narducci@poliba.it, ]

[ email=tommaso.dinoia@poliba.it, ]

대형 언어 모델 (LLMs), 데이터셋 기억, 추천 시스템 (RSs)

서론

대형 언어 모델(LLMs)은 자연어 처리를 혁명적으로 바꾸었으며 감성 분석, 대화형 에이전트, 검색 엔진 및 추천 시스템에 점점 더 많이 통합되고 있습니다. 이들의 훈련은 다양한 출처에서 얻은 방대한 양의 텍스트를 섭취하는 것을 포함하지만, 특정 훈련 데이터는 공개되지 않습니다. 이러한 폭이 넓음으로 인해 강력한 일반화가 가능하나 동시에 데이터 유출에 대한 우려도 생깁니다.

기록과 학습된 모델을 주어졌을 때, 해당 기록이 모델의 훈련 세트 일부인지 결정하는 작업은 소속 추론 공격(MIA)으로 정식화되었습니다. MIA는 원래 개인 정보 리스크 감사를 위한 기술로 시작되었으며 두 가지 주요 공격 설정이 고려됩니다: 블랙박스 공격에서는 적대자가 모델을 쿼리하고 출력만 관찰할 수 있는 반면, 화이트박스 공격에서는 적대자는 모델의 아키텍처, 매개변수 및 중간 계산에 완전히 접근할 수 있습니다. 블랙박스 공격은 그림 모델을 사용하여 “in"과 “out” 후행 행동을 구분하는 반면, 화이트박스 변형은 내부 신호(예: 그래디언트, 모델 업데이트)를 활용하며 연방 학습 설정으로 확장되었습니다.

MIA에서 출발하여 연구자들은 LLM 기억화를 정의하고 측정하기 시작했습니다. 예를 들어, GPT-J-6B 모델이 Pile 데이터셋의 최소 1% 이상을 기억했다는 사실이 발견되었고, GPT-Neo 훈련에 사용된 코딩 샘플의 56%를 추출할 수 있었습니다.

추천 시스템의 맥락에서 최근 연구는 LLaMA와 OpenAI 모델 가족 내부에서 MovieLens-1M 데이터셋이 기억화되었다는 것을 밝혔습니다. 예를 들어, GPT-4는 80.76%의 항목 샘플을 복구할 수 있었고, LLaMA-3.3 70B는 7.65%를 복구했습니다. 또한 추천 성능은 이러한 기억화 정도와 상관관계가 있었습니다. 이 발견은 생성 모델이 프롬프트에 따라 훈련 예제를 저장하고 재생산할 수 있다는 것을 확인합니다. 그러나 LLM 기반 추천 시스템의 경우, 이는 중요한 제한 사항을 제시합니다: MovieLens-1M은 종종 고전적인 RecSys 프로토콜을 사용하여 평가되는 널리 사용되는 벤치마크 데이터셋이므로 테스트 세트가 이미 모델에 의해 기억화되어 있을 가능성이 있어 결과의 신뢰성을 해칠 수 있습니다.

본 논문은 MovieLens-1M에서 기억된 인스턴스를 여러 전략을 통해 추출할 수 있는지, 그리고 프로빙 방법을 사용하여 이러한 기억화를 감지할 수 있는지를 조사합니다. 우리의 작업은 수동 프롬프트 엔지니어링만을 사용해 LLMs의 기억화를 테스트한 초기 연구에 직접적으로 기반하고 있습니다.

따라서 다음과 같은 연구 질문을 제시합니다:

수동 프롬핑을 강화할 수 있는가? 수동 프롬핑 외에도 LLM 기억화를 감지하는 방법이 있는가? 데이터 유출을 자동으로 탐지할 수 있는가?

이 질문에 답하기 위해 우리는 세 가지 보완적인 기법의 가족을 평가합니다: (i) Jailbreak 프롬프트 엔지니어링(화이트박스), 모델 내부에서 기억된 데이터를 드러내는 데 도움이 되는지 확인; (ii) 무감독 잠재 지식 탐사(블랙박스), Contrast–Consistent Search(CCS)와 Cluster-Norm을 사용하여 내부 활성화를 조사; 그리고 (iii) 자동 프롬프트 엔지니어링(화이트박스), 프롬프트 생성을 메타 학습 과정으로 표현하고 후보 지시문을 반복적으로 정교하게 만듭니다.

우리의 기여는 세 가지입니다:

  • 우리는 수동, 무감독 및 자동 방법을 시스템적으로 평가함으로써의 발견을 맥락화하고 확장합니다.
  • 공개 LLaMA-1B와 3B 모델에 대한 상세 실험 연구를 수행하여 각 기법의 효율성을 항목, 사용자 및 레이팅 필드에서 측정합니다.
  • 정성적 및 정량적인 분석을 제공하고 실무자를 위한 실행 가능한 권장 사항과 미래 연구 방향을 제시합니다.

우리가 아는 한 이는 수동, 무감독 및 자동 프로빙 방법에 대한 첫 번째 포괄적인 비교입니다.

방법론

데이터와 기본 정보

이전 작업과 공정한 비교를 보장하고 화이트박스 메소드 사용을 가능하게 하기 위해 우리는 MovieLens-1M 데이터셋과 LLaMA 모델에 초점을 맞춥니다. 이를 통해 제안된 방법의 기억화 탐지 능력을 직접 평가할 수 있습니다.

데이터셋은 세 가지 파일로 구성되어 있습니다: users.dat는 사용자 식별자와 인구 통계학적 속성을 나열하고, movies.dat에는 영화 제목과 장르가 포함되어 있으며, ratings.dat에는 사용자 상호 작용 트리플이 포함되어 있습니다. 표 1은 기본 통계를 요약합니다.

파일 기록 특징 원 레코드
users.dat 6,040 5 userID::gender::age::occupation::zip
movies.dat 3,952 3 movieID::title::genres
ratings.dat 1,000,209 4 userID::movieID::rating::timestamp

MovieLens-1M 데이터셋의 통계.

다음에서는 각 방법론을 상세히 설명하고 데이터셋 발견에 어떻게 적용되는지 설명합니다.

Jailbreak 프롬프트 엔지니어링

Jailbreak 프롬프트 엔지니어링 워크플로: 데이터셋 샘플 선택; 몇 가지 예제와 체인 오브 톱을 포함한 jailbreaking 프롬프트를 통합하는 프롬프트 제작; LLM에 쿼리; 응답의 유효성, 중복 및 환상 분석; 프롬프트 반복.

Jailbreak 프롬프트 엔지니어링은 안전 필터와 정렬 메커니즘을 우회하는 적대적 프롬프트를 만드는 것을 포함합니다. 초기 연구에서는 프롬프트 주입과 프롬프트 유출 등의 공격을 탐색했으며, 악성 지시문은 모델의 지시어 따르기 행동을 이용하여 콘텐츠 제한을 무효화하려고 합니다. 역할 연기 시나리오, 제한된 용어의 난독화 및 멀티턴 추론 함정 등의 기술이 차단된 출력을 유발하는 것으로 나타났습니다.

일반적으로 해롭거나 안전하지 않은 콘텐츠 생성에 대해 연구되었지만, 우리는 통제된 환경에서 MovieLens-1M 데이터셋의 기억화를 조사하기 위해 그 잠재력을 검토합니다. 구체적으로 jailbreak 프롬프트가 특정 데이터셋 항목을 복구할 수 있는지 테스트합니다. 우리의 반복적인 워크플로우(Figure 1)에는 다음이 포함됩니다: (i) 프롬프트 설계, 원 데이터셋 샘플을 적은 샷 템플릿에 임베딩하고 jailbreak 스타일의 지시문을 추가하여 모델이 복종하도록 미리 준비하는 대화 기록 생성(자세한 내용은 부록 Figure [fig:jailbreak_example] 참조); (ii) 모델 상호작용, 제작된 프롬프트를 Llama-1B에 발행; (iii) 응답 분석, 출력의 유효성, 중복, 환상 및 숫자 가능성 수동 평가.

프롬프트는 예시와 지시문을 조정하여 재현율과 정확도 사이에서 균형을 이루기 위해 반복적으로 수정됩니다.

무감독 잠재 지식 탐사

LLMs의 해석성에 대한 신흥 연구 분야에서는 내부 활성화를 사용하여 미세한 속성을 드러냅니다. 이들 연구 중에는 Contrast–Consistent Search(CCS)를 소개하고 이를 통해 라벨링 데이터 없이 LLMs에 저장된 지식을 추론하는 것이 가능하다는 것을 보여줍니다.

구체적으로, CCS는 라벨링 데이터가 없는 상태에서 LLMs 내부에 저장된 지식을 추론하는 무감독 기법입니다. 이는 지식 탐지 가능성(Q&A 작업)을 형식화하고 활성화로부터 “예"와 “아니오"의 확률을 활용하여 진술이 참인 경우에 해당하는 활성화 공간 내 방향성을 식별합니다. 부정된 쌍에 대해 일관성을 최적화함으로써 CCS는 특정 샘플을 모델이 아는지 판단하는데, 참 문장에는 높은 점수를 부여하고 거짓 문장에는 낮은 점수를 부여합니다. Cluster-Norm을 통해 CCS가 확장되어 활성화를 클러스터로 그룹화하고 각 클러스터 내에서 정규화하여 잘못된 상관관계를 줄입니다. 목표는 무관하지만 유의한 특징이 감지되지 않게 하는 영향을 최소화하는 것입니다.

우리 연구에서는 이러한 접근법을 구조화된 추천 데이터에 적용하여 참/거짓 진술로 구성된 데이터셋을 생성합니다. 예를 들어, “영화 Toy Story는 MovieLens-1M에 있습니다” (참)와 “영화 Storymanji는 MovieLens-1M에 있습니다” (거짓). 허위 샘플 이름은 텍스트 필드를 bigram으로 나누어 무작위 추출하고, 알파벳 숫자 필드에는 무작위 생성을 적용합니다. 우리는 구성된 긍정적 및 부정적 예의 80%에서 CCS와 Cluster-Norm 프로브를 학습시키고 LLaMA-1B 표현을 사용하여 나머지 20%에서 평가하고 분류 정확도를 보고합니다. 전체 파이프라인에 대한 자세한 내용은 부록 Figure [fig:ccs] 참조.

자동 프롬프트 엔지니어링

자동 프롬프트 엔지니어링(APE)은 프롬프트 설계를 최적화 문제로 다룹니다. APE에서 LLM이 후보 프롬프트를 생성하고 하류 작업에서 평가한 다음 반복적으로 개선합니다. 원래 연구에서는 감성 분석과 요약과 같은 작업에 인간 수준의 지시어 합성을 달성했습니다. 우리는 MovieLens-1M 데이터셋에 APE 프레임워크를 적용하고 항목, 사용자 및 레이팅 필드에서 추출 효과를 평가합니다.

우리 연구의 APE 과정은 세 단계로 구성됩니다:

  1. 프롬프트 생성: LLM은 5개의 시연 입력-출력 쌍을 기반으로 100개의 후보 프롬프트를 생성합니다.
  2. 프롬프트 평가: 각 후보 프롬프트는 데이터셋의 검증 서브셋에서 평가됩니다. 우리는 정확한 일치 함수를 제안하여 기억화 커버리지를 평가합니다.
  3. 프롬프트 개선: 상위-$k$ 프롬프트는 생성 단계로 다시 입력되어 개선된 프롬프트를 합성합니다.

프롬프트가 LLMs에 의해 생성되므로 우리는 온도 매개변수의 효과를 연구하여 더 창의적인 프롬프트를 얻을 수 있는지 확인하고자 합니다. 이는 출력 다양성을 제어하며 0.1에서 2.0까지 변할 때 창조적인 프롬프트 생성에 영향을 줄 수 있습니다.

방법 비교

기법 인간 노력 모델 접근 강점 / 약점
수동 프롬핑 높음 블랙박스 유연하지만 구조화된 데이터에 신뢰성 낮음
무감독 (CCS, Cluster-Norm) 낮음 활성화 접근 잠재 구조 감지 가능; 숫자형 데이터 제한적
자동 프롬프트 엔지니어링 중간 블랙박스 탐색을 자동화; 비텍스트 필드에 실패할 수 있음

LLMs에서 기억화 감지를 위한 기법 비교. 수동 프롬핑은 적소 샷 또는 jailbreaking 전략을 사용하고, 무감독 방법은 활성화에 접근하며, APE는 프롬프트 생성 및 점수를 반복적으로 수행합니다.

표 2는 본 논문에서 연구한 세 가지 가족의 탐지 기법의 주요 특징을 요약합니다: 수동 프롬핑, 무감독 잠재 지식 발견 및 자동 프롬프트 엔지니어링. 수동 방법은 인간 전문성을 필요로하고 프롬프트 유출에 취약하며, 무감독 방법은 모델 활성화를 활용하여 잠재 구조를 드러내지만 종종 모델 접근이 필요합니다. APE는 탐색을 자동화하지만 계산 리소스에 의존하고 비텍스트 필드에서 실패할 수 있습니다.

결과 및 논의

수동 프로빙

jailbreak 기법과 수동 프롬핑은 기억화 증거를 제공하는 데 제한적이었습니다. Figure 1에서 설명된 워크플로우에 따라 모델은 거의 드문 경우에만 대상 기록을 재현할 수 있었습니다. 그러나 대부분의 출력은 사용자 및 레이팅 필드에 대한 환상을 제목이나 무작위 숫자였습니다. 체인 오브 톱 구문과 적대적 jailbreak 트리거를 포함하는 경우가 종종 재현을 개선했지만 잘못된 긍정도 증가시켰습니다. 우리의 정성적 분석에 따르면 결과는 심층적인 정량평가를 정당화하기에는 부족하며, 테스트된 jailbreak 템플릿과 수동 프롬핑이 구조화된 MovieLens-1M 데이터 추출을 위한 실용적인 솔루션이 아니라는 결론에 도달했습니다.

무감독 잠재 지식 탐사

파일 랜덤 CCS Cluster-Norm
movies.dat 0.50 0.92 0.94
users.dat 0.50 0.51 0.52
ratings.dat 0.50 0.53 0.51

MovieLens-1M에서 CCS와 Cluster-Norm을 사용한 무감독 소속 추론 결과. 각 항목은 균형 정확도를 보고합니다.

표 3는 CCS와 Cluster-Norm의 성능을 보고합니다. 이 방법들의 성능은 데이터 유형에 따라 크게 다릅니다. movies.dat에서 CCS는 실제 제목과 합성된 제목을 구별하는 정확도가 0.92이고, cluster-norm은 약간 개선되었습니다 (0.94). 그러나 users.datratings.dat에서는 정확도가 대략 0.51-0.53로 무작위 추측과 구분할 수 없었습니다. 우리는 또한 PCA를 통해 표현을 시각화했습니다(부록 Figure 4 참조), 영화는 분리가 명확했지만 사용자와 레이팅은 겹치는 클러스터를 보였습니다.

CCS 결과의 해석을 통해 예 및 아니오 응답의 표현은 진실성 패턴을 포착하여 실제 MovieLens 영화 제목과 합성된 것 사이에서 분리를 가능하게 합니다. 이는 모델이 특정 영화가 데이터셋의 일부임을 인식하고 암묵적으로 “알고” 있다는 것을 의미합니다. 그러나 사용자와 레이팅에서는 샘플들이 단지 알파벳 숫자 문자열일 뿐, 기억화를 나타낼 수 있는 의미있는 패턴을 추출하지 못했습니다.

그러나 높은 점수는 여러 가지로 해석될 수 있으며 실제 영화 제목과 합성된 것 사이의 구분 능력을 반영할 수도 있습니다. 이는 중요성을 의미합니다


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키