엔트로피 적응 튜닝으로 잊히는 것을 막자 확신 갈등 해결

읽는 시간: 6 분
...

📝 원문 정보

- Title: Entropy-Adaptive Fine-Tuning Resolving Confident Conflicts to Mitigate Forgetting
- ArXiv ID: 2601.02151
- 발행일: 2026-01-05
- 저자: Muxi Diao, Lele Yang, Wuxuan Gong, Yutong Zhang, Zhonghao Yan, Yufei Han, Kongming Liang, Weiran Xu, Zhanyu Ma

📝 초록

감독 학습 조정(Supervised Fine-Tuning, SFT)은 대형 언어 모델(LLMs)을 특정 도메인에 맞게 적응시키는 표준 방법입니다. 그러나 이 방식은 치명적인 잊힘(catastrophic forgetting)이라는 큰 비용을 초래합니다. 반면, 온-폴리시 강화 학습(on-policy RL)은 도메인별 성능을 향상시키면서 기반 모델의 견고성을 효과적으로 유지하는 데 유명합니다. 이 두 방법론 사이의 극적인 차이는 특정 질문을 제기합니다: SFT가 일반 능력을 악화시킬 때 왜 온-폴리시 RL은 이를 유지할 수 있는지? 본 연구는 이 현상에 대한 메커니즘을 체계적으로 분석하고, 이를 통해 "Confident Conflicts"라는 개념을 도입하여 SFT에서의 치명적인 잊힘의 원인을 밝혀냅니다. 또한, 엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)이라는 새로운 방법론을 제안합니다.

💡 논문 해설

1. **원인 밝힘**: 감독 학습 조정(Supervised Fine-Tuning, SFT)과 온-폴리시 강화 학습(on-policy RL) 사이의 데이터 분포 차이를 발견했습니다. 이 차이는 "Confident Conflicts"라는 개념으로 설명됩니다: 모델이 자신에게 확신하면서도 실제 정답과 상반되는 예측을 하는 경우입니다.
  1. 새로운 방법론 제안: 엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)이라는 새로운 방법론을 도입했습니다. 이 방법은 토큰 수준의 엔트로피를 기반으로 학습 손실을 조절하여 모델이 “Confident Conflicts"를 적응하는 데 중점을 두고 일반 능력을 유지하도록 합니다.

  2. 적용 결과: Math, Medical, Agent 등 다양한 도메인에서 EAFT의 효과를 실험적으로 검증했습니다. EAFT는 SFT와 기존 방법론을 초월하여 치명적인 잊힘을 크게 감소시키며 동시에 특정 작업 성능을 향상시킵니다.

📄 논문 발췌 (ArXiv Source)

# 서론

감독 학습 조정(Supervised Fine-Tuning, SFT)은 대형 언어 모델(LLMs)을 특정 도메인(예: 수학이나 에이전트 도구 사용 등)에 맞게 적응시키는 표준 방법입니다. 그러나 이 방식은 치명적인 잊힘(catastrophic forgetting)이라는 큰 비용을 초래합니다. 이전 연구들은 모델이 특정 목표 분포에 맞출 때 일반 능력이 악화되는 경우를 널리 기록해 왔습니다. 반면, 온-폴리시 강화 학습(on-policy RL)은 도메인별 성능을 향상시키면서 효과적으로 기반 모델의 견고성을 유지하는 데 유명합니다. 이 두 방법론 사이의 극적인 차이는 다음과 같은 기본적인 질문을 제기합니다:

SFT가 일반 능력을 악화시키는 이유와, 왜 온-폴리시 RL은 이를 유지할 수 있는지?

(a) 개념적 설명. SFT가 모델의 강한 사전 지식을 무력화(예: “공”을 “트리코노데카에드론”으로 라벨링)하려고 할 때, 이는 Confident Conflict를 생성합니다. 이러한 충돌을 맞추는 것은 모델의 기존 표현을 왜곡시키며 치명적인 잊힘을 초래합니다.(b) 토큰 수준 엔트로피–확률 지형도. 온-폴리시 롤아웃(오른쪽)과 비교해 SFT 데이터(왼쪽)는 Low Entropy, Low Probability 토큰들의 주요 클러스터를 보여줍니다.

이 현상의 메커니즘을 조사하기 위해 우리는 학습 데이터의 토큰 수준 확률과 엔트로피를 체계적으로 분석합니다. Fig. 1에 시각화된 바와 같이, 이 분석은 서로 다른 데이터 출처에서 발생하는 분포적 차이를 드러냅니다. 온-폴리시 RL에서는 학습 순서가 자체 롤아웃을 통해 생성되므로, 토큰들은 본질적으로 모델의 현재 확률 지형도와 일치하며 고확률 신뢰 구역 또는 고엔트로피 탐색 구역에 속합니다. 반면 SFT는 외부 감독(예: 인간이나 강력한 선생님 모델)을 기반으로 하므로, 이는 저확률, 저엔트로피 토큰의 불일치를 초래합니다. 특히 이러한 불일치는 저확률이면서도 저엔트로피인 토큰들로 나타납니다. 이러한 특정 구역은 모델이 자신의 예측에 대해 매우 확신하는(저엔트로피) 상황이나, 강제적으로 이와 다른 정답 라벨을 맞추려는 경우(저확률)를 의미합니다. 우리는 이러한 사례를 **“Confident Conflicts”**라고 부릅니다. App. 8 참조.

이러한 충돌들이 실제로 잊힘의 주된 원인이 되는지 확인하기 위해, 우리는 예비 실험을 수행했습니다. 학습 중에 이러한 “Confident Conflict” 토큰들을 단순히 가리기만 하면(Fig. 2 참조) 치명적인 잊힘은 표준 SFT보다 크게 감소되었습니다. 이는 이러한 충돌 샘플에 대한 업데이트 강제가 능력 악화의 주된 원인이라는 것을 확인합니다.

이 통찰력을 바탕으로 우리는 **엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)**을 제안합니다. EAFT는 이산 임계값 대신 토큰 수준 엔트로피를 기반으로 학습 손실을 동적으로 조절하는 부드러운 게이팅 메커니즘을 사용합니다.

특히, 이 접근법은 표준 크로스 엔트로피나 확률 기반 재가중 전략과 구별됩니다. 이러한 방법들은 예측 확률에만 의존하므로 “Confident Conflicts"에서 파괴적인 경사를 증폭시키는 위험을 안고 있습니다. 반면, EAFT은 엔트로피를 사용하여 강성과 불확실성을 구분합니다. 저엔트로피 토큰의 가중치를 낮추어 충돌 경사도를 억제하고 고엔트로피 토큰에 감독을 집중시켜 적응을 촉진함으로써, EAFT는 도메인 숙달과 일반 능력 유지 사이의 균형을 효과적으로 맞춥니다.

(a) "Confident Conflict" 토큰들(엔트로피와 확률에서 하위 15%)을 가리면 표준 SFT에서 관찰되는 일반 능력의 악화가 크게 감소합니다.(b) 수학, 의료, 에이전트 도메인에 걸쳐 EAFT는 목표 작업 개선(상단 막대)과 함께 일반 벤치마크 성능 저하(하단 막대)를 크게 줄입니다.

우리 접근법의 효과와 보편성을 검증하기 위해, 우리는 수학, 의료, 에이전트 도메인에 걸쳐 EAFT를 광범위한 실험을 통해 확인했습니다. 우리의 포괄적인 평가는 다양한 모델 계열(Qwen, GLM)과 4B에서 32B 매개변수 규모까지의 범위를 포함합니다. 결과는 Fig. 2와 Tab. [tab:main_table]에 제시됩니다.

정량적 결과(Sec. [sec:main_result])은 EAFT가 표준 SFT 및 기존 완화 전략을 일관되게 초월하며, 목표 작업에서 베이스라인과 맞먹거나 이를 상회하면서 일반 벤치마크에서 치명적인 잊힘을 크게 감소시키는 파레토 개선을 달성함을 보여줍니다.

성능을 넘어서, 우리는 방법론의 내재적 속성을 깊이 분석합니다. “Confident Conflicts"를 표적으로 하는 엔트로피-적응 메커니즘(Sec. [sec:mechanism])이 실험적으로 검증되었으며, EAFT는 하이퍼파라미터 변화에 강건하다(Sec. [subsec:sensitivity])고 더불어 계산적으로 효율적임을 보여줍니다(Sec. [subsec:k_efficiency]).

요약하자면, 우리의 기여는 다음과 같습니다:

  • SFT와 온-폴리시 RL 데이터 사이의 분포적 차이를 발견했습니다. 시각화 및 예비 실험을 통해 “Confident Conflicts”(저엔트로피, 저확률 토큰)를 치명적인 잊힘의 주된 원인으로 지목합니다.

  • 엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT), 학습 손실을 제어하는 새로운 목표를 도입했습니다. 이 메커니즘은 충돌 데이터로부터 파괴적인 업데이트를 자동으로 가중치를 낮춥니다.

  • Math, Agent 및 Medical 도메인에서 광범위한 실험을 통해 우리의 접근법을 검증했습니다. 결과는 EAFT가 다양한 모델 계열과 규모(4B~32B)에 걸쳐 치명적인 잊힘을 효과적으로 완화하는 보편적 솔루션임을 확립합니다.

관련 연구

후 훈련 패러다임: SFT vs. RL. 후 훈련 방법은 주로 감독 학습 조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)으로 구성되어 있으며, 이들 모두 사전 훈련된 언어 모델(LMs)을 맞추는 데 널리 사용됩니다. SFT는 정답 표시를 최대한 확률화하는 방향으로 모델을 최적화합니다(오프-폴리시). 반면 RL은 보상 신호에 따라 자체 생성 응답을 기반으로 모델을 최적화합니다(온-폴리시). 이 신호는 일반적으로 파라미터화된 보상 모델이나 검증 가능한 신호로부터 유래됩니다.

신진 연구는 이러한 학습 행동의 근본적인 분극을 강조합니다. SFT는 효율적이지만, 내재적으로 기억에 취약하고 종종 특정 훈련 샘플에 맞추면서 일반화를 손해 보게 됩니다. RL은 단일 훈련 예제로부터 이점을 얻으면서 심각한 과적합 없이 우수한 견고성을 보여줍니다. 이를 연결하는 공통점은 RL의 파라미터 업데이트가 더 지역적이고 대상적이다는 것입니다.

우리 연구는 SFT의 불안정성의 근본 원인을 탐구합니다. 우리는 표준 SFT가 모델의 사전 훈련 지식과 충돌하는 “confident conflicts"를 무차별적으로 맞추려고 한다는 점에서 온-폴리시 방법들과 다르다고 주장합니다.

치명적인 잊힘은 신경망에 있어 기초적인 도전 과제입니다. 초기 노력들은 잊히지 않도록 하기 위해 파라미터가 극단적으로 변화하는 것을 막는 데 초점을 맞추었습니다.

LLM 후 훈련에서 이는 “Alignment Tax"로 나타납니다: 특정 도메인 능력(예: 수학 문제 해결, 도구 활용 또는 생물의학적 적응)을 위해 조정하면 모델의 일반 능력이 크게 악화되는 경향이 있습니다.

이러한 제약을 극복하기 위한 최근 연구에서는 토큰 수준 지표에 따라 최적화를 조정하는 동적 학습 전략을 탐색합니다. TALR은 토큰 신뢰도에 기반하여 학습률을 동적으로 조절하여 수렴을 가속화합니다. DFT는 예측 확률에 따라 SFT 손실을 재가중시킵니다. 다른 방법론들처럼 RL의 Razor는 KL 발산을 정규화 항으로 사용해 모델이 기반 분포에서 벗어나지 않도록 제약합니다.

그러나 현재 존재하는 동적 방법들은 주로 확률이나 KL 발산을 난이도 또는 변화를 대리하는 척도로 사용합니다. 우리는 단순히 확률만으로는 불충분한 통계임을 주장합니다: 저확률 토큰은 인식적 불확실성(학습해야 하는 유효 지식)이나 “Confident Conflict”(모델의 강력한 사전 지식과 충돌하는 파괴적인 샘플)를 나타낼 수 있습니다. 확률에 기반해 모델이 이러한 충돌을 맞추도록 강제하면 이전 방법론은 잊힘 가속화 위험을 안고 있습니다. 우리의 연구는 엔트로피를 게이팅 신호로 도입함으로써 이를 발전시킵니다.

실증적 분석 및 방법론

본 절에서는 SFT에서의 치명적인 잊힘 원인을 체계적으로 조사하고 대응 솔루션을 제안합니다. 우리는 문제 설정과 핵심 지표를 정의하는 Sec. [subsec:preliminaries]로 시작합니다. 그런 다음 Sec. [subsec:analysis]에서는 ‘Confident Conflicts’가 파괴적인 경사도의 주된 원인임을 식별하기 위한 실증적 분석을 제시합니다. 마지막으로, 이러한 통찰력을 바탕으로 Sec. [subsec:EAFT]에서 우리의 방법론인 **엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)**를 소개합니다.

기초

SFT는 기본 모델 $`\theta`$, 그 확률 분포를 $`P_{\theta}`$라고 표기하는 것에서 타겟 데이터셋 $`\mathcal{D} = \{(\boldsymbol{x}, \boldsymbol{y})_i\}_{i=1}^N`$로 적응시키는 표준 과정입니다. 각 샘플의 응답은 토큰 시퀀스 $`\boldsymbol{y} = (y_1, \dots, y_T)`$, 여기서 $`T`$는 시퀀스 길이를 나타냅니다. 이 적응은 일반적으로 크로스 엔트로피(Cross-Entropy, CE) 손실을 최소화하여 목표 시퀀스의 가능성을 극대화하는 방식으로 이루어집니다:

MATH
\begin{equation}
\mathcal{L}_{\text{CE}}(\theta) = - \sum_{t=1}^{T} \log P_{\theta}(y_t | \boldsymbol{x}, \boldsymbol{y}_{<t})
\label{eq:ce_loss}
\end{equation}
클릭하여 더 보기

이 목표의 주요 한계는 모든 토큰에 대해 일률적인 처리를 한다는 것입니다. 모델의 사전 지식이나 불확실성과 상관없이 각 토큰 $`y_t`$를 맞추기 위해 모델 파라미터를 공격적으로 업데이트합니다.

이 일률적 목표가 모델 내부 상태와 어떻게 상호 작용하는지의 동역학을 조사하기 위해, 우리의 분석과 방법론의 기반이 되는 두 가지 토큰 수준 지표를 도입합니다:

  1. 확률: $`p_t = P_{\theta}(y_t | \boldsymbol{x}, \boldsymbol{y}_{

  2. 예측 엔트로피: $`P_t(v) \triangleq P_{\theta}(v | \boldsymbol{x}, \boldsymbol{y}_{

분석: 잊힘의 원천

SFT가 잊음을 초래하는 이유와 온-폴리시 RL은 그렇지 않은 이유를 이해하기 위해, 표준 SFT 데이터의 토큰 수준 통계를 모델 생성 롤아웃(온-폴리시 RL의 데이터 출처)과 비교합니다. Fig. 1에서 두 데이터셋에 대한 확률 $`p_t`$와 엔트로피 $`H_t`$의 분포를 시각화하였습니다.

분포적 차이: Confident Conflicts

시각화는 중요한 분포적 이동을 드러냅니다. 온-폴리시 데이터는 모델이 정확한 경우(고확률) 또는 탐색하는 경우(고엔트로피)에 속합니다. 반면, SFT 데이터에는 **저엔트로피($`H_t \downarrow`$)와 저확률($`p_t \downarrow`$)**인 토큰의 주요 클러스터가 포함되어 있습니다. 우리는 이러한 샘플들을 **‘Confident Conflicts’**라고 부릅니다. 이들은 모델이 강한, 고집스러운 사전 신념(저엔트로피)을 가진 경우와 정답 라벨과 상반되는 경우를 나타냅니다.

예비 연구: Confident Conflicts 가리기

우리는 이러한 ‘Confident Conflicts’가 잊힘의 주된 원인이라고 가정했습니다. 이를 확인하기 위해, 엔트로피와 확률 순위에서 하위 15%에 속하는 토큰들의 손실을 가리는 예비 실험을 수행했습니다. Fig. 2 참조) 이 간단한 개입은 표준 SFT에서 관찰되는 일반 능력의 악화를 크게 감소시켰습니다.

특히, 이러한 특정 토큰들을 가리면 치명적인 잊힘을 거의 없애는 것으로 확인되었습니다. 이 결과는 일반 능력의 악화가 모델이 충돌 샘플에 적응하려고 강제되는 것에서 비롯된다는 것을 확인합니다.

이론적 통찰

우리는 최적화 동역학을 분석하여 이러한 손상을 이해했습니다. 크로스 엔트로피(Cross-Entropy) 손실(방정식 [eq:ce_loss])를 고려할 때, 모델이 정답과 상반되는 예측에 대해 매우 확신한 경우(저엔트로피, 저확률), CE 손실은 매우 큰 경사를 유발합니다. 모델이 다른 토큰을 강하게 선호하므로, 정답에 맞추려면 큰 파라미터 업데이트가 필요하며 이는 기반 모델의 일반 표현을 덮어쓰게 됩니다. 반면, 모델이 불확실한 경우(고엔트로피), 경사는 작아지고 업데이트는 더 부드러워져서 모델의 원래 능력을 유지하는 데 도움이 됩니다.

엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)

예비 연구가 우리의 가설을 검증했지만, 경직된 마스킹 전략은 학습 데이터를 삭제하고 목표 도메인에서 효과적인 학습을 방해하며 민감한 하이퍼파라미터($`\tau, \delta`$)에 의존하는 한계가 있습니다. 이를 해결하기 위해 우리는 **엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)**이라는 부드러운 게이팅 메커니즘을 제안합니다. 이 방법은 모델의 불확실성에 따라 학습 신호를 동적으로 조절합니다.

EAFT 목적

우리는 표준 감독을 정규화된 엔트로피로 척도를 맞춘 EAFT 손실을 형식화했습니다. 이 메커니즘은 모델이 탐색 중인 샘플에서 학습을 우선시하며, 충돌 경사를 효과적으로 억제합니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키