Refined 프롬프트 추적 모델 행동을 이용한 대화 조정 감지

2026년 02월 04일

읽는 시간: 10 분

...

#paper #AI 요약

📝 원문 정보

- Title: Refinement Provenance Inference Detecting LLM-Refined Training Prompts from Model Behavior
- ArXiv ID: 2601.01966
- 발행일: 2026-01-05
- 저자: Bo Yin, Qi Li, Runpeng Yu, Xinchao Wang

📝 초록

이 논문은 언어 모델의 미세조정 과정에서 원본 프롬프트와 리피너가 재작성한 프롬프트를 구분하는 문제, 즉 Refinement Provenance Inference (RPI)에 대해 다룹니다. 이를 위해 RePro라는 로짓 기반 프레임워크를 제안하며, 이는 그림과 같은 과정을 통해 빠른 선형 분류기를 사용해 추론 모델에서 원본 및 리피너 재작성된 프롬프트의 출처를 판별합니다.

💡 논문 해설

**1. 새로운 출처 감지 작업: RPI** - **쉬운 설명:** 가게가 신선한 과일과 오래 보관한 과일을 구분하듯이, 이 연구는 언어 모델이 원본 프롬프트와 리피너의 재작성된 버전 중 어느 것을 학습했는지 판별합니다. - **중간 설명:** RPI는 언어 모델이 어떤 데이터로 미세조정되었는지를 감지하는데, 이는 가게에서 신선한 과일과 보관된 과일을 구분하는 것과 비슷합니다. 원본과 리피너의 재작성 버전은 학습 효과에 영향을 주므로 이를 구별하는 것이 중요합니다. - **어려운 설명:** 이 연구는 언어 모델이 미세조정될 때 사용된 프롬프트의 출처를 감지하는데 초점을 맞춥니다. 이는 원본 데이터와 리피너가 변형한 데이터 간에 존재하는 차이를 분석하여, 어떤 버전으로 학습되었는지를 판별합니다.

2. Provenance 프레임워크: RePro

쉬운 설명: 요리사가 다양한 재료로 같은 요리를 만드는데, 각 재료의 특징을 파악해 원재료와 변형된 재료를 구분하는 것과 같습니다.
중간 설명: RePro는 로짓 기반 프레임워크로, 미세조정 과정에서 사용된 프롬프트의 출처를 판별합니다. 이는 다양한 토큰 수준의 특징을 추출하고, 이를 통해 원본 및 재작성 프롬프트를 구분하는 데 도움이 됩니다.
어려운 설명: RePro는 로짓 기반 접근법을 사용하여 미세조정 과정에서 사용된 프롬프트의 출처를 추론합니다. 이를 위해, 토큰 수준의 음수 로그 우도 통계, 상위 후보 간 순위 패턴 및 로짓 격차로부터 유래한 특징을 학습하여, 원본과 재작성 프롬프트를 구별하는 데 사용합니다.

3. 감지 가능한 전이 흔적의 증거

쉬운 설명: 사무실에서 누군가가 카페인 향기를 맡았을 때, 그것은 커피 머신이 작동하고 있음을 알려주는 신호와 같습니다.
중간 설명: 이 연구는 다양한 작업과 미세조정 가족 간에 감지 가능한 출처 흔적이 존재함을 증명합니다. 이를 통해 원본 및 재작성 프롬프트의 사용 여부를 확인할 수 있습니다.
어려운 설명: 본 논문에서는 다양한 작업, 미세조정 모델, 그리고 리피너 연산자에 걸친 종합적인 실험을 통해 감지 가능한 출처 흔적이 존재함을 보여줍니다. 이를 통해 원본 및 재작성 프롬프트의 사용 여부를 판별하는 데 필요한 신호가 전이 가능함을 입증합니다.

📄 논문 발췌 (ArXiv Source)

# 소개

Refinement Provenance Inference (RPI) 문제의 과정.

대형 언어 모델은 논리적 추론, 코드 생성, 대화 및 도구 사용 등 다양한 응용 프로그램을 구동하는 일반적인 시스템으로 빠르게 진화해 왔습니다. 이러한 능력이 향상됨에 따라 미세 조정과 지시어 조정은 특정 도메인과 상호 작용 스타일에 모델을 적응시키는 표준 관행이 되었으며, 이로 인해 고품질 학습 프롬프트의 구성 및 관리에 대한 강조가 더욱 높아졌습니다. 현대 파이프라인에서 원시 프롬프트 즉, 수집된 지시어는 일반적으로 재정의 모델에 의해 표준화되고 애매함을 줄이며 지시어 따르기 규칙과 일치하게 다시 작성됩니다. 이 널리 사용되는 정교화 단계는 감사 문제를 제기합니다: 주어진 미세 조정된 모델과 후보 인스턴스 $`(x_j, y_j)`$에 대해 모델이 원시 버전을 기반으로 조정되었는지 또는 재정의 모델이 다시 작성한 대응물에 기반으로 조정되었는지를 추론할 수 있는가?

이 질문에 답하는 것은 모델 개발에서 투명성과 위험 평가 측면에서 중요합니다. 감사 관점에서는 정교화가 학습 프롬프트의 분포를 크게 변경할 수 있으며, 실무자들은 배포된 모델이 선언된 데이터 파이프라인 아래에서 학습되었는지 또는 공개되지 않은 재정의 모델이 사용되었는지를 확인하고 싶을 것입니다. 보안 및 프라이버시 관점에서는 정교화 단계가 훈련 과정에 대한 정보를 유출하는 독특한 변환으로 작용할 수 있으며, 이로 인해 조직의 데이터 준비 워크플로우의 일부 측면을 드러낼 수 있습니다.

이 감사 문제를 Refinement Provenance Inference (RPI)라고 합니다. 그림 1은 RPI 과정을 보여줍니다. 주목할 점은 이 문제가 데이터 수준의 출처 문제라는 것입니다: 피해자는 정교화된 프롬프트와 원시 프롬프트의 혼합에 대해 미세 조정되었을 가능성이 있으며, 목표는 어떤 학습 인스턴스가 정교화되었는지를 식별하는 것입니다. 자연스러운 가설은 정교화가 주로 표면 형식을 변경하며, 출처 증거는 특정 재정의 모델과 그 작성 스타일에 연결될 것이라는 것입니다. 그러나 우리는 정교화된 프롬프트를 학습하면 표면 구현을 넘어서 분포 수준 선호도 변화를 유발하고 이러한 변화가 지속되는 것을 주장합니다. 구체적으로, 정교화는 프롬프트를 더 표준화하고 지시어 따르기 규칙과 일치하도록 만드는데, 이는 미세 조정 중 관찰된 경사를 편향시키고 강사 강제 하에서 피해자 모델의 토큰 수준 선호도를 변경할 수 있습니다. 이러한 변화들은 생성된 텍스트로부터 항상 명확하게 나타나지는 않지만, 확률 패턴, 상위 후보들 간의 순위 행동 및 로짓 격차로 인한 교사 강제 토큰 분포에서 측정할 수 있습니다. 중앙 과제는 피해자 모델과 정교화 연산자를 변동에 대해 강건하게 신호를 추출하고, 특정 재정의 모델이나 데이터 분포에 대한 과적합이 아닌 다른 모델로 전달하는 것입니다.

이 과제를 해결하기 위해, 우리는 RePro라는 로짓 기반 정교화 출처 추론 프레임워크를 제안합니다. 여기서는 먼저 강사의 강제 로짓에서 간결한 특징 벡터를 계산하여 토큰 수준 음수 로그 우도 통계, 상위 후보들 사이의 순위 패턴 및 로짓 격차로부터 유래한 마진 특징을 포착합니다. 그런 다음, 우리는 동일한 기본 초기화에서 미세 조정된 그림 모델에 대한 감독적 대비 학습을 통해 임베딩 인코더를 훈련시키며, 동일한 출처 레이블을 가진 임베딩은 클러스터링되도록 하여 다른 레이블을 가진 임베딩은 분리됩니다. 마지막으로, 우리는 얼라인 임베딩 위에 가벼운 선형 분류기를 맞추어 결과 공격자를 피해자 모델로 전달하여 추론 시 정교화 여부를 판별하는 점수를 생성합니다.

우리의 기여는 다음과 같습니다:

새로운 출처 작업. 우리는 Refinement Provenance Inference (RPI)를 소개하며, 주어진 후보 인스턴스 $`(x,y)`$와 미세 조정된 모델에 대해 해당 인스턴스에 대한 학습 데이터가 원시 프롬프트 또는 재정의 모델이 다시 작성한 버전을 사용했는지를 묻고 이를 현대적인 미세 조정 파이프라인에서 실행 가능한 감사 문제로 설정합니다.
출처 프레임워크. 우리는 RePro를 제안하며, 이는 교사 강제 로짓 캐치를 추출하고 그림 미세 조정과 감독적 대비 학습을 통해 전달 가능한 임베딩을 학습하는 로짓 기반 출처 프레임워크입니다. 이를 통해 가벼운 선형 분류기를 사용해 피해자 모델에 대한 추론이 가능합니다.
감지 및 전달 가능 흔적의 증거. 우리는 작업, 피해자 가족 및 정교화 연산자를 포함한 종합적인 경험 연구를 제공하며, 교차 재정의 전달, 특징 및 학습 약화, 그리고 감지 가능한 정교화 흔적이 언제 나타나는지와 성능을 주도하는 구성 요소가 무엇인지를 설명하기 위한 민감도 분석을 포함합니다.

정교화 출처 추론

문제 정의

현대 미세 조정 파이프라인은 종종 외부 LLM을 사용해 학습 프롬프트를 정교화하여 명확성과 일관성을 개선합니다. 이러한 정교화는 효과적인 학습 분포에 체계적인 변화를 유발하며, 이는 미세 조정된 모델의 토큰 수준 예측 동작에 반영될 수 있습니다. 우리는 인스턴스 수준에서 정교화 출처 추론을 연구합니다: 단일 미세 조정 피해자 내에서는 다양한 학습 인스턴스가 다른 프롬프트 변형을 사용할 수 있으며, 목표는 각 인스턴스에 대해 학습 시 사용된 프롬프트가 원본인지 LLM-정교화되었는지를 추론하는 것입니다. 정교화는 입력 프롬프트에만 적용되며 참조 출력은 변경되지 않습니다.

우리는 의미적 인스턴스를 $`i`$로 색인하며, 각 인스턴스는 원래 프롬프트 $`x_i^{\mathrm{raw}}`$와 참조 출력 $`y_i`$에 해당하는 유일한 기본 작업을 나타냅니다. 정교화 연산자 $`R(\cdot)`$은 raw prompt를 refined prompt로 매핑합니다:

MATH

\begin{equation}
x_i^{\mathrm{ref}} = R\!\left(x_i^{\mathrm{raw}}\right).
\end{equation}

클릭하여 더 보기

미세 조정 데이터셋은 각 인스턴스 $`i`$에 대해 raw 또는 refined 프롬프트 중 하나를 선택하여 구성됩니다. 여기서 선택은 독립적인 잠재 지시자 $`z_i \sim \mathrm{Bernoulli}(\rho)`$에 의해 이루어집니다:

MATH

\begin{equation}
x_i^{\mathrm{tr}} = x_i^{z_i} =
\begin{cases}
x_i^{\mathrm{ref}}, & z_i=1,\\
x_i^{\mathrm{raw}}, & z_i=0,
\end{cases}
\qquad z_i \in \{0,1\},
\label{eq:mixture}
\end{equation}

클릭하여 더 보기

여기서 $`z_i`$는 정교화 출처 레이블($`1`$은 정교화됨, $`0`$은 원본임)입니다. $`M_0`$을 기본 언어 모델로 표시하고 $`M_a`$를 피해자 모델로 표시하며, 이는 혼합으로 미세 조정(SFT)됩니다:

MATH

\begin{equation}
M_a \leftarrow \mathrm{SFT}\!\left(M_0;\ \{(x_i^{\mathrm{tr}}, y_i)\}_{i \in \mathcal{I}_a}\right),
\label{eq:victim}
\end{equation}

클릭하여 더 보기

여기서 $`\mathcal{I}_a`$는 피해자를 미세 조정하는 데 사용된 의미적 인스턴스의 집합입니다.

감사 작업. 인스턴스 $`i \in \mathcal{I}_a`$에 대해 (멤버십이 알려짐) 감사는 피해자 $`M_a`$와 교사 강제를 위한 평가 쌍 $`(\tilde x_i, y_i)`$을 제공받고 학습 시간 출처 레이블 $`z_i`$를 추론합니다:

MATH

\begin{equation}
s_i = g\!\left(\phi(M_a; \tilde x_i, y_i)\right) \in [0,1], \qquad \hat z_i = \mathbf{I}[s_i \ge \tau],
\label{eq:predict}
\end{equation}

클릭하여 더 보기

여기서 $`\phi(\cdot)`$는 피해자의 토큰 수준 예측 동작을 기반으로 추출된 특징이며, $`g(\cdot)`$는 분류 점수를 출력하고 $`\tau`$는 임계값입니다. 우리의 기본 설정에서, $`\phi(\cdot)`$은 교사 강제 로그 확률 및 상위-$`k`$ 로짓 통계로부터 계산됩니다.

액세스 가정

우리는 감사자가 (i) 미세 조정된 피해자 모델 $`M_a`$에 대한 쿼리 액세스; (ii) 참조 출력을 포함하는 인스턴스 평가 세트; 및 (iii) 기본 모델 $`M_0`$에 대한 액세스를 가진다고 가정합니다. 이를 통해 그림 미세 조정 모델을 생성하여 전달 가능한 결정 규칙을 학습할 수 있습니다. 후보 쌍 $`(x_j,y_j)`$가 주어졌을 때, 감사는 교사 강제를 사용해 $`y_j`$에 대한 토큰 수준 로그 확률을 얻고 NLL 기반 통계를 계산합니다. 우리의 기본 설정은 상위-$`k`$ 로짓에 대한 액세스도 포함합니다. 이러한 가정은 실제에서 일반적입니다: 미세 조정된 모델은 종종 기본 체크포인트와 함께 제공되거나, 평가/디코딩 스택은 가능성이 점수 및 상위-$`k`$ 출력을 지원합니다.

방법론

우리의 목표는 미세 조정된 모델 $`M_a`$가 인스턴스의 원본 버전 또는 LLM-정교화 버전을 학습했는지를 추론하는 것입니다. 이 감사 목표를 실행하기 위해, 우리는 감사 공격을 개발하고 RePro라는 프레임워크를 제안합니다. RePro는 그림 미세 조정 모델에서 로짓 기반 특징을 사용해 감독적 대비 인코더를 훈련시키고 가벼운 선형 분류기를 통해 피해자에게 전달합니다. 그림 3은 전체 파이프라인의 개요를 제공합니다. 단계 1에서는 라벨링된 그림 원시 및 정교화 인스턴스 혼합을 구성하고, 동일한 기본 모델 $`M_0`$로부터 그림 모델 $`M_c`$을 미세 조정하고, 교사 강제 동작을 요약하는 로짓 기반 특징 벡터를 추출합니다. 이 특징은 NLL 통계, 상위-$`K`$ 순위 패턴, 로짓 마진 및 선택적 향상 특징을 포함합니다. 감독적 대비 학습을 사용해 이러한 특징에 대한 인코더를 훈련시키고 결과 임베딩에서 가벼운 선형 분류기를 맞춥니다. 단계 2에서는 피해자 모델 $`M_a`$에 대해 동일한 특징 추출 및 인코더를 적용하고 전달된 분류자를 사용해 각 후보 인스턴스에 대한 정교화 대비 원본 출처 점수를 출력합니다.

RePro 개요. 단계 1은 로짓 기반 특징을 사용해 그림 미세 조정 모델에서 감독적 대비 인코더를 훈련시킵니다. 단계 2는 이 인코더와 가벼운 분류기를 피해자 모델로 전달하여 정교화 대비 원본 출처 점수를 추론합니다.

교사 강제 로짓 특징

모델 $`M`$과 인스턴스 $`(x_i, y_i)`$가 주어졌을 때, 우리는 교사 강제 아래 토큰 수준의 로그 확률을 계산합니다:

MATH

\begin{equation}
\ell^{(M)}_{i,t} = \log p_M(y_{i,t}\mid x_i, y_{i,<t}), \quad t=1,\dots,|y_i|.
\label{eq:logprob}
\end{equation}

클릭하여 더 보기

$`s^{(M)}_{i,t} \in \mathbb{R}^{|\mathcal{V}|}`$을 단계 $`t`$에서의 전-소프트맥스 로짓 벡터로 표시합니다. $`\{\ell^{(M)}_{i,t}\}_{t=1}^{|y_i|}`$ 및 해당 로짓으로부터, 우리는 확률 기반 적합도와 꼬리 어려움을 요약하는 고정 차원 특징 벡터를 도출합니다. 또한 순위 행동 및 현지 분포의 날카로움을 요약합니다.

정규화된 음수 로그 우도 (NLL).

MATH

\begin{equation}
\mathrm{NLL}_M(i) = -\frac{1}{|y_i|}\sum_{t=1}^{|y_i|}\ell^{(M)}_{i,t}.
\label{eq:nll}
\end{equation}

클릭하여 더 보기

평균화로 인해 숨겨진 “어려운 토큰” 꼬리를 포착하기 위해, 우리는 토큰별 NLL 값 $`\{-\ell^{(M)}_{i,t}\}`$의 선택된 분위수를 추가로 계산합니다.

상위-$`k`$ 포함. 단계 $`t`$에서 모델 $`M`$에 대한 상위-$`k`$ 토큰 집합을 $`\mathrm{TopK}_t^{(M)}`$로 표시합시다 (로그에서 순위). 우리는

MATH

\begin{equation}
\mathrm{TopK}_M(i) = \frac{1}{|y_i|}\sum_{t=1}^{|y_i|}\mathbb{I}\big[y_{i,t}\in \mathrm{TopK}_t^{(M)}\big],
\label{eq:topk}
\end{equation}

클릭하여 더 보기

을 정의하고 실험에서는 $`k\in\{1,5,10\}`$를 사용합니다. 이 특징은 참조 토큰이 가장 가능성이 높은 후보들 중에 일관되게 포함되는지를 캡처합니다.

신뢰도 마진. $`s^{(M)}_{t,(1)}`$ 및 $`s^{(M)}_{t,(2)}`$는 각각 $`s^{(M)}_{i,t}`$에서 가장 큰 로짓 값과 두 번째로 큰 로짓 값을 나타냅니다. 우리는 평균 마진을 계산합니다:

MATH

\begin{equation}
\mathrm{Gap}_M(i) = \frac{1}{|y_i|}\sum_{t=1}^{|y_i|}\left(s^{(M)}_{t,(1)} - s^{(M)}_{t,(2)}\right).
\label{eq:gap}
\end{equation}

클릭하여 더 보기

이 마진은 다음 토큰 분포의 현지 날카로움을 반영하며, 확률 및 순위 통계를 보완합니다.

향상. 우리는 같은 인스턴스에서 미세 조정 전후 동작을 대조하여 상승 특징을 형성합니다. 어떤 통계 $`S(\cdot)\in{\mathrm{NLL},\mathrm{TopK},\mathrm{Gap # Truncated to stay under character limit

ArXiv 원문 PDF 보기