- Title: Refinement Provenance Inference Detecting LLM-Refined Training Prompts from Model Behavior
- ArXiv ID: 2601.01966
- 발행일: 2026-01-05
- 저자: Bo Yin, Qi Li, Runpeng Yu, Xinchao Wang
📝 초록
이 논문은 언어 모델의 미세조정 과정에서 원본 프롬프트와 리피너가 재작성한 프롬프트를 구분하는 문제, 즉 Refinement Provenance Inference (RPI)에 대해 다룹니다. 이를 위해 RePro라는 로짓 기반 프레임워크를 제안하며, 이는 그림과 같은 과정을 통해 빠른 선형 분류기를 사용해 추론 모델에서 원본 및 리피너 재작성된 프롬프트의 출처를 판별합니다.
💡 논문 해설
**1. 새로운 출처 감지 작업: RPI**
- **쉬운 설명:** 가게가 신선한 과일과 오래 보관한 과일을 구분하듯이, 이 연구는 언어 모델이 원본 프롬프트와 리피너의 재작성된 버전 중 어느 것을 학습했는지 판별합니다.
- **중간 설명:** RPI는 언어 모델이 어떤 데이터로 미세조정되었는지를 감지하는데, 이는 가게에서 신선한 과일과 보관된 과일을 구분하는 것과 비슷합니다. 원본과 리피너의 재작성 버전은 학습 효과에 영향을 주므로 이를 구별하는 것이 중요합니다.
- **어려운 설명:** 이 연구는 언어 모델이 미세조정될 때 사용된 프롬프트의 출처를 감지하는데 초점을 맞춥니다. 이는 원본 데이터와 리피너가 변형한 데이터 간에 존재하는 차이를 분석하여, 어떤 버전으로 학습되었는지를 판별합니다.
2. Provenance 프레임워크: RePro
쉬운 설명: 요리사가 다양한 재료로 같은 요리를 만드는데, 각 재료의 특징을 파악해 원재료와 변형된 재료를 구분하는 것과 같습니다.
중간 설명: RePro는 로짓 기반 프레임워크로, 미세조정 과정에서 사용된 프롬프트의 출처를 판별합니다. 이는 다양한 토큰 수준의 특징을 추출하고, 이를 통해 원본 및 재작성 프롬프트를 구분하는 데 도움이 됩니다.
어려운 설명: RePro는 로짓 기반 접근법을 사용하여 미세조정 과정에서 사용된 프롬프트의 출처를 추론합니다. 이를 위해, 토큰 수준의 음수 로그 우도 통계, 상위 후보 간 순위 패턴 및 로짓 격차로부터 유래한 특징을 학습하여, 원본과 재작성 프롬프트를 구별하는 데 사용합니다.
3. 감지 가능한 전이 흔적의 증거
쉬운 설명: 사무실에서 누군가가 카페인 향기를 맡았을 때, 그것은 커피 머신이 작동하고 있음을 알려주는 신호와 같습니다.
중간 설명: 이 연구는 다양한 작업과 미세조정 가족 간에 감지 가능한 출처 흔적이 존재함을 증명합니다. 이를 통해 원본 및 재작성 프롬프트의 사용 여부를 확인할 수 있습니다.
어려운 설명: 본 논문에서는 다양한 작업, 미세조정 모델, 그리고 리피너 연산자에 걸친 종합적인 실험을 통해 감지 가능한 출처 흔적이 존재함을 보여줍니다. 이를 통해 원본 및 재작성 프롬프트의 사용 여부를 판별하는 데 필요한 신호가 전이 가능함을 입증합니다.
📄 논문 발췌 (ArXiv Source)
# 소개
/>
Refinement Provenance Inference (RPI) 문제의 과정.
대형 언어 모델은 논리적 추론, 코드 생성, 대화 및 도구 사용 등 다양한 응용 프로그램을 구동하는 일반적인 시스템으로 빠르게 진화해 왔습니다. 이러한 능력이 향상됨에 따라 미세 조정과 지시어 조정은 특정 도메인과 상호 작용 스타일에 모델을 적응시키는 표준 관행이 되었으며, 이로 인해 고품질 학습 프롬프트의 구성 및 관리에 대한 강조가 더욱 높아졌습니다. 현대 파이프라인에서 원시 프롬프트 즉, 수집된 지시어는 일반적으로 재정의 모델에 의해 표준화되고 애매함을 줄이며 지시어 따르기 규칙과 일치하게 다시 작성됩니다. 이 널리 사용되는 정교화 단계는 감사 문제를 제기합니다: 주어진 미세 조정된 모델과 후보 인스턴스 $`(x_j, y_j)`$에 대해 모델이 원시 버전을 기반으로 조정되었는지 또는 재정의 모델이 다시 작성한 대응물에 기반으로 조정되었는지를 추론할 수 있는가?
이 질문에 답하는 것은 모델 개발에서 투명성과 위험 평가 측면에서 중요합니다. 감사 관점에서는 정교화가 학습 프롬프트의 분포를 크게 변경할 수 있으며, 실무자들은 배포된 모델이 선언된 데이터 파이프라인 아래에서 학습되었는지 또는 공개되지 않은 재정의 모델이 사용되었는지를 확인하고 싶을 것입니다. 보안 및 프라이버시 관점에서는 정교화 단계가 훈련 과정에 대한 정보를 유출하는 독특한 변환으로 작용할 수 있으며, 이로 인해 조직의 데이터 준비 워크플로우의 일부 측면을 드러낼 수 있습니다.
이 감사 문제를 Refinement Provenance Inference (RPI)라고 합니다. 그림 1은 RPI 과정을 보여줍니다. 주목할 점은 이 문제가 데이터 수준의 출처 문제라는 것입니다: 피해자는 정교화된 프롬프트와 원시 프롬프트의 혼합에 대해 미세 조정되었을 가능성이 있으며, 목표는 어떤 학습 인스턴스가 정교화되었는지를 식별하는 것입니다. 자연스러운 가설은 정교화가 주로 표면 형식을 변경하며, 출처 증거는 특정 재정의 모델과 그 작성 스타일에 연결될 것이라는 것입니다. 그러나 우리는 정교화된 프롬프트를 학습하면 표면 구현을 넘어서 분포 수준 선호도 변화를 유발하고 이러한 변화가 지속되는 것을 주장합니다. 구체적으로, 정교화는 프롬프트를 더 표준화하고 지시어 따르기 규칙과 일치하도록 만드는데, 이는 미세 조정 중 관찰된 경사를 편향시키고 강사 강제 하에서 피해자 모델의 토큰 수준 선호도를 변경할 수 있습니다. 이러한 변화들은 생성된 텍스트로부터 항상 명확하게 나타나지는 않지만, 확률 패턴, 상위 후보들 간의 순위 행동 및 로짓 격차로 인한 교사 강제 토큰 분포에서 측정할 수 있습니다. 중앙 과제는 피해자 모델과 정교화 연산자를 변동에 대해 강건하게 신호를 추출하고, 특정 재정의 모델이나 데이터 분포에 대한 과적합이 아닌 다른 모델로 전달하는 것입니다.
이 과제를 해결하기 위해, 우리는 RePro라는 로짓 기반 정교화 출처 추론 프레임워크를 제안합니다. 여기서는 먼저 강사의 강제 로짓에서 간결한 특징 벡터를 계산하여 토큰 수준 음수 로그 우도 통계, 상위 후보들 사이의 순위 패턴 및 로짓 격차로부터 유래한 마진 특징을 포착합니다. 그런 다음, 우리는 동일한 기본 초기화에서 미세 조정된 그림 모델에 대한 감독적 대비 학습을 통해 임베딩 인코더를 훈련시키며, 동일한 출처 레이블을 가진 임베딩은 클러스터링되도록 하여 다른 레이블을 가진 임베딩은 분리됩니다. 마지막으로, 우리는 얼라인 임베딩 위에 가벼운 선형 분류기를 맞추어 결과 공격자를 피해자 모델로 전달하여 추론 시 정교화 여부를 판별하는 점수를 생성합니다.
우리의 기여는 다음과 같습니다:
새로운 출처 작업. 우리는 Refinement Provenance Inference (RPI)를 소개하며, 주어진 후보 인스턴스 $`(x,y)`$와 미세 조정된 모델에 대해 해당 인스턴스에 대한 학습 데이터가 원시 프롬프트 또는 재정의 모델이 다시 작성한 버전을 사용했는지를 묻고 이를 현대적인 미세 조정 파이프라인에서 실행 가능한 감사 문제로 설정합니다.
출처 프레임워크. 우리는 RePro를 제안하며, 이는 교사 강제 로짓 캐치를 추출하고 그림 미세 조정과 감독적 대비 학습을 통해 전달 가능한 임베딩을 학습하는 로짓 기반 출처 프레임워크입니다. 이를 통해 가벼운 선형 분류기를 사용해 피해자 모델에 대한 추론이 가능합니다.
감지 및 전달 가능 흔적의 증거. 우리는 작업, 피해자 가족 및 정교화 연산자를 포함한 종합적인 경험 연구를 제공하며, 교차 재정의 전달, 특징 및 학습 약화, 그리고 감지 가능한 정교화 흔적이 언제 나타나는지와 성능을 주도하는 구성 요소가 무엇인지를 설명하기 위한 민감도 분석을 포함합니다.
관련 연구
학습 데이터 감사
학습이 모델의 신뢰성 풍경에 체계적인 변화를 유발하고 이를 감사에 활용할 수 있다는 긴 줄의 작업이 있습니다. 멤버십 추론에서 공격자는 손실, 엔트로피 또는 마진 등의 통계를 사용하여 본 것과 보지 않은 예제를 구분하며, 강력한 변종은 그림 모델 전달, 교정 특징 또는 효율적인 쿼리 탐침을 이용합니다. 멤버십을 넘어서 속성 추론은 학습 세트가 특정 속성을 갖는 예제를 포함하는지 예측하며, 이를 통해 생성된 텍스트로부터 직접 관찰할 수 없는 속성이더라도 모델 출력이 학습 시간 신호를 유출할 수 있음을 강조합니다. 언어 모델에 대한 연구에서는 메모리와 데이터 추출을 지원하며, 토큰 수준 확률 패턴이 학습 시간 정규성을 인코딩할 수 있음도 입증했습니다. 우리의 작업은 이 일반적인 방법론을 따르지만, 미세 조정 인스턴스가 LLM-정교화 형태로 제시되었는지 원래 형태로 제시되었는지를 타겟팅합니다. 이를 위해 로짓 중심 신호와 전달 기반 공격자를 사용하고 텍스트만의 증거를 넘어서 진행됩니다.
데이터 정교화 및 검출
LLM 주도의 재작성은 대규모 데이터 큐레이션에 널리 활용되며, 특히 프롬프트가 표준화되고 명확해지고 목표 상호 작용 스타일과 일치하도록 하는 지시어 조정에서 그렇습니다. 이전 연구는 정교화 연산자와 정책을 연구하며, 자동 재작성이 표면 형식뿐만 아니라 잠재 선호도를 변환시키며, 정교화된 분포가 원래 데이터로부터 체계적으로 다르게 나타난다는 것을 보여줍니다. 정교화는 일반적으로 품질 개선 전처리 단계로 간주되지만, 그 후속 발자국을 감사할 수 있는 학습 속성으로서의 중요성이 덜 주목받았습니다. 우리는 출처 관점을 취하고 정교화된 프롬프트가 직접적으로 미세 조정된 모델의 동작에서 추론될 수 있는지 물어봅니다.
유사한 연구는 가능성의 흔적, 펨트럽-스코어 안정성 테스트, 스타일로메트릭 신호 및 워터마킹을 통해 기계 생성 또는 변환된 텍스트를 검출하는 것을 목표로 합니다. 이러한 방법은 주로 텍스트 자체에서 작동하며 종종 생성자에 대한 액세스, 워터마크 키 또는 변환 채널에 대한 가정에 의존합니다. 우리의 설정은 다르며, 정교화는 학습 전에 발생하고 하류 피해자 모델은 인간과 유사한 출력을 만들 수 있으며, 리피너는 알려지지 않고 워터마크가 없는 경우도 있습니다. 우리는 이러한 요소를 연결하여 정교화를 학습 데이터 출처 속성으로 취급하며 교사 강제 토큰 분포에서 감지 가능함을 보여줍니다. 이는 다양한 리피너와 피해자 가족 간에 전달됩니다.
정교화 출처 추론
문제 정의
현대 미세 조정 파이프라인은 종종 외부 LLM을 사용해 학습 프롬프트를 정교화하여 명확성과 일관성을 개선합니다. 이러한 정교화는 효과적인 학습 분포에 체계적인 변화를 유발하며, 이는 미세 조정된 모델의 토큰 수준 예측 동작에 반영될 수 있습니다. 우리는 인스턴스 수준에서 정교화 출처 추론을 연구합니다: 단일 미세 조정 피해자 내에서는 다양한 학습 인스턴스가 다른 프롬프트 변형을 사용할 수 있으며, 목표는 각 인스턴스에 대해 학습 시 사용된 프롬프트가 원본인지 LLM-정교화되었는지를 추론하는 것입니다. 정교화는 입력 프롬프트에만 적용되며 참조 출력은 변경되지 않습니다.
우리는 의미적 인스턴스를 $`i`$로 색인하며, 각 인스턴스는 원래 프롬프트 $`x_i^{\mathrm{raw}}`$와 참조 출력 $`y_i`$에 해당하는 유일한 기본 작업을 나타냅니다. 정교화 연산자 $`R(\cdot)`$은 raw prompt를 refined prompt로 매핑합니다:
여기서 $`\phi(\cdot)`$는 피해자의 토큰 수준 예측 동작을 기반으로 추출된 특징이며, $`g(\cdot)`$는 분류 점수를 출력하고 $`\tau`$는 임계값입니다. 우리의 기본 설정에서, $`\phi(\cdot)`$은 교사 강제 로그 확률 및 상위-$`k`$ 로짓 통계로부터 계산됩니다.
액세스 가정
우리는 감사자가 (i) 미세 조정된 피해자 모델 $`M_a`$에 대한 쿼리 액세스; (ii) 참조 출력을 포함하는 인스턴스 평가 세트; 및 (iii) 기본 모델 $`M_0`$에 대한 액세스를 가진다고 가정합니다. 이를 통해 그림 미세 조정 모델을 생성하여 전달 가능한 결정 규칙을 학습할 수 있습니다. 후보 쌍 $`(x_j,y_j)`$가 주어졌을 때, 감사는 교사 강제를 사용해 $`y_j`$에 대한 토큰 수준 로그 확률을 얻고 NLL 기반 통계를 계산합니다. 우리의 기본 설정은 상위-$`k`$ 로짓에 대한 액세스도 포함합니다. 이러한 가정은 실제에서 일반적입니다: 미세 조정된 모델은 종종 기본 체크포인트와 함께 제공되거나, 평가/디코딩 스택은 가능성이 점수 및 상위-$`k`$ 출력을 지원합니다.
/>
교사 강제 로짓의 특징 진단.
방법론
우리의 목표는 미세 조정된 모델 $`M_a`$가 인스턴스의 원본 버전 또는 LLM-정교화 버전을 학습했는지를 추론하는 것입니다. 이 감사 목표를 실행하기 위해, 우리는 감사 공격을 개발하고 RePro라는 프레임워크를 제안합니다. RePro는 그림 미세 조정 모델에서 로짓 기반 특징을 사용해 감독적 대비 인코더를 훈련시키고 가벼운 선형 분류기를 통해 피해자에게 전달합니다. 그림 3은 전체 파이프라인의 개요를 제공합니다. 단계 1에서는 라벨링된 그림 원시 및 정교화 인스턴스 혼합을 구성하고, 동일한 기본 모델 $`M_0`$로부터 그림 모델 $`M_c`$을 미세 조정하고, 교사 강제 동작을 요약하는 로짓 기반 특징 벡터를 추출합니다. 이 특징은 NLL 통계, 상위-$`K`$ 순위 패턴, 로짓 마진 및 선택적 향상 특징을 포함합니다. 감독적 대비 학습을 사용해 이러한 특징에 대한 인코더를 훈련시키고 결과 임베딩에서 가벼운 선형 분류기를 맞춥니다. 단계 2에서는 피해자 모델 $`M_a`$에 대해 동일한 특징 추출 및 인코더를 적용하고 전달된 분류자를 사용해 각 후보 인스턴스에 대한 정교화 대비 원본 출처 점수를 출력합니다.
/>
RePro 개요. 단계 1은 로짓 기반 특징을 사용해 그림 미세 조정 모델에서 감독적 대비 인코더를 훈련시킵니다. 단계 2는 이 인코더와 가벼운 분류기를 피해자 모델로 전달하여 정교화 대비 원본 출처 점수를 추론합니다.
교사 강제 로짓 특징
모델 $`M`$과 인스턴스 $`(x_i, y_i)`$가 주어졌을 때, 우리는 교사 강제 아래 토큰 수준의 로그 확률을 계산합니다:
$`s^{(M)}_{i,t} \in \mathbb{R}^{|\mathcal{V}|}`$을 단계 $`t`$에서의 전-소프트맥스 로짓 벡터로 표시합니다. $`\{\ell^{(M)}_{i,t}\}_{t=1}^{|y_i|}`$ 및 해당 로짓으로부터, 우리는 확률 기반 적합도와 꼬리 어려움을 요약하는 고정 차원 특징 벡터를 도출합니다. 또한 순위 행동 및 현지 분포의 날카로움을 요약합니다.