> 직접 선호도 최적화(DPO)는 다중모드 대형 언어 모델(MLLMs)에서 환영현상(hallucinations)을 완화하는 데 큰 잠재력을 보여주고 있다. 하지만 기존의 다중모드 DPO 접근법은 선호도 데이터의 난이도 불균형으로 인해 과적합하기 쉽다. 우리의 분석에 따르면, MLLMs는 쉽게 구분할 수 있는 선호도 쌍을 지나치게 강조하므로 미세한 환영현상 억제와 전체 성능 저하가 발생한다. 이 문제를 해결하기 위해 우리는 학습 과정을 균형 있게 하는 효과적인 프레임워크인 난이도 인식 직접 선호도 최적화(DA-DPO)를 제안한다. DA-DPO는 두 가지 주요 구성 요소로 이루어져 있다: (1)*난이도 추정*은 보완적인 생성과 대조 목표를 가진 사전 훈련된 시각-언어 모델을 활용하여 추가 학습 없이 견고한 난이도 점수를 생산한다; 그리고 (2) *난이도 인식 학습*은 추정 난이도에 기반해 선호 쌍을 재가중하며, 쉽게 구분할 수 있는 샘플의 가중치를 줄이고 더 어려운 샘플에 중점을 두어 과적합을 완화한다. 이 프레임워크는 새로운 데이터나 추가적인 미세 조정 단계 없이 도전적인 예제를 우선시함으로써 선호도 최적화를 더욱 효과적으로 수행할 수 있게 한다. 광범위한 실험은 DA-DPO가 다중모드 선호도 최적화를 지속적으로 개선하고 환영현상에 대한 강건성을 향상시키며 표준 벤치마크에서 더 나은 일반화 성능을 제공하면서 계산 효율성을 유지한다는 것을 보여준다. 프로젝트 페이지는
[`https://artanic30.github.io/project_pages/DA-DPO`](https://artanic30.github.io/project_pages/DA-DPO/)에 있습니다.
💡 논문 해설
1. **분석의 필요성**: MLLMs를 훈련할 때 환영현상(hallucinations)은 큰 문제다. 이는 모델이 시각적 입력을 기반으로 하지 않은 응답을 생성하는 것을 의미한다. DA-DPO는 이러한 문제를 해결하기 위해 선호도 데이터에 균형을 맞추려고 한다.
2. **DA-DPO의 효과**: DA-DPO는 모델이 쉽게 구분할 수 있는 예제보다 더 어려운 예제에 집중하게 하므로, 이로 인해 환영현상이 줄어들고 일반화 성능이 향상된다. 이를 통해 MLLMs는 더욱 정확하고 신뢰할 수 있게 된다.
3. **비교의 중요성**: DA-DPO와 기존 DPO 방법을 비교하는 것이 중요하다. 실험 결과에 따르면, DA-DPO가 더 나은 성능을 보여준다.
📄 논문 발췌 (ArXiv Source)
maketitle 감사합니다 aketitle
Abstract
직접 선호도 최적화(DPO)는 다중모드 대형 언어 모델(MLLMs)에서 환영현상(hallucinations)을 완화하는 데 큰 잠재력을 보여주고 있다. 하지만 기존의 다중모드 DPO 접근법은 선호도 데이터의 난이도 불균형으로 인해 과적합하기 쉽다. 우리의 분석에 따르면, MLLMs는 쉽게 구분할 수 있는 선호도 쌍을 지나치게 강조하므로 미세한 환영현상 억제와 전체 성능 저하가 발생한다. 이 문제를 해결하기 위해 우리는 학습 과정을 균형 있게 하는 효과적인 프레임워크인 난이도 인식 직접 선호도 최적화(DA-DPO)를 제안한다. DA-DPO는 두 가지 주요 구성 요소로 이루어져 있다: (1)난이도 추정은 보완적인 생성과 대조 목표를 가진 사전 훈련된 시각-언어 모델을 활용하여 추가 학습 없이 견고한 난이도 점수를 생산한다; 그리고 (2) 난이도 인식 학습은 추정 난이도에 기반해 선호 쌍을 재가중하며, 쉽게 구분할 수 있는 샘플의 가중치를 줄이고 더 어려운 샘플에 중점을 두어 과적합을 완화한다. 이 프레임워크는 새로운 데이터나 추가적인 미세 조정 단계 없이 도전적인 예제를 우선시함으로써 선호도 최적화를 더욱 효과적으로 수행할 수 있게 한다. 광범위한 실험은 DA-DPO가 다중모드 선호도 최적화를 지속적으로 개선하고 환영현상에 대한 강건성을 향상시키며 표준 벤치마크에서 더 나은 일반화 성능을 제공하면서 계산 효율성을 유지한다는 것을 보여준다. 프로젝트 페이지는
https://artanic30.github.io/project_pages/DA-DPO에 있습니다.
startsection section1@-2.0ex plus -0.5ex minus -.2ex1.5ex plus 0.3ex
minus0.2ex
Introduction 최근 다중모드 대형 언어 모델(MLLMs)의 발전은 이미지 캡셔닝, 시각적 질문 답변과 같은 비주얼-언어 작업을 크게 향상시켰다. 강력한 대형 언어 모델과 최첨단 비전 모델을 결합함으로써 MLLMs는 다중모드 이해와 추론 능력을 높였다. 그러나 MLLMs의 지속적인 도전 과제 중 하나는 시각적 입력에 기반하지 않은 응답을 생성하는 경향이다. 이로 인해 “환영현상"이 발생하며, 실제 시각적 세부 사항이 없는 또는 부정확한 설명이 포함될 수 있다. 이러한 제약은 MLLMs의 신뢰성을 저하시키며, 사실적인 정확도가 필요한 응용 프로그램에 큰 장애물이 된다.
최근에는 환영현상을 완화하기 위한 유망한 접근법으로 직접 선호도 최적화(DPO)를 활용하려는 노력이 있다. DPO는 모델의 출력을 신뢰할 수 있는 응답을 강조하고 환영현상을 줄이는 선호 데이터와 일치시킨다. 특히, DPO의 효과성은 쌍별 선호도 데이터의 품질에 크게 의존한다. 이를 해결하기 위해 초기 접근법은 수작업으로 주석을 달았지만, 이러한 데이터 수집은 노동 집약적이고 확장이 어렵다. 최근에는 다수의 연구가 자동화된 전략을 제안하여 쌍별 선호도 데이터를 생성한다. 이 방법들은 훈련된 모델을 활용해 다양한 시나리오에 걸친 데이터 커버리지를 크게 증가시키고, 모델이 환영현상을 줄이는 능력을 향상시킨다.
그럼에도 불구하고 기존의 쌍별 선호도 데이터로 학습된 순수한 DPO 방법은 일반적인 다중모드 능력에서 눈에 띄는 성능 저하를 초래한다. 이 제약을 우리는 훈련 데이터 내의 쉬운 샘플과 어려운 샘플 사이의 불균형 때문이라고 본다. 쉬운 샘플은 명확하게 구분 가능한 충실한 응답과 환영현상 응답을 포함하지만, 어려운 샘플은 미묘한 추론이 필요하다. 이 불균형은 모델이 쉽게 학습하는 케이스에 과적합되면서 더 어려운 예제에서 배우는 것을 방해한다.
이 문제를 해결하기 위해 우리는 쉬운 샘플과 어려운 샘플의 기여를 동적으로 균형 있게 하는 난이도 인식 학습 프레임워크를 제안한다. 이 전략을 구현하는 주요 과제는 샘플 난이도 추정에 대한 명시적 지도 부족이다. 이를 해결하기 위해 우리는 가벼운, 훈련 없는 전략을 도입한다: 다양한 패러다임에서 사전 훈련된 시각-언어 모델(VLMs)의 신호를 집계하여 특정 모델을 명시적으로 학습하지 않고도 견고한 난이도 점수를 얻는다. 이러한 난이도 점수는 선호 데이터를 재가중하는 데 사용되며, 더 어려운 샘플에 중점을 두면서 쉽게 구분할 수 있는 샘플로의 과적합을 방지한다.
특히 우리는 Difficulty Aware Direct Preference Optimization (DA-DPO) 프레임워크를 제안하며, 이는 난이도 추정과 난이도 인식 학습 두 단계로 구성된다. 첫 번째 단계에서는 여러 VLMs을 활용해 각 쌍별 선호 샘플의 난이도를 평가한다. 특히 우리는 대조형 VLMs(예: CLIP)과 생성적 VLMs(예: LLaVA)을 사용하여 보완적인 관점에서 난이도를 추정한다. 그들의 출력은 분포 인식 투표 전략을 통해 집계되며, 각 VLM의 가중치는 학습 데이터에 대한 분류 신뢰성으로부터 적응적으로 파생된다. 이러한 점수를 바탕으로 두 번째 단계에서는 DPO에서 각 샘플의 최적화 강도를 동적으로 조정하는 난이도 인식 학습을 수행한다. 구체적으로, 난이도 점수는 학습된 정책과 초기 정책 사이에 허용되는 발산 정도를 조절하며 이 메커니즘은 도전적인 샘플에서의 학습을 강화하고 사소한 예제에 대한 불필요한 표류를 제한한다.
(1)
DPO와 DA-DPO 성능 비교. DPO와 DA-DPO의 성능 향상을 LLaVA v1.5 7B의 선호도 최적화 없음과 비교한다. Hallucination은 4개의 환영현상 벤치마크에서의 성능을 나타내며, Comprehensive은 4개의 종합적인 MLLM 벤치마크에서의 성능을 나타낸다. 상세 내용은 실험 섹션에 설명되어 있다.
(2) 쉬운 샘플과 어려운 쌍: "쉬운 샘플"은 선호와 비선호 응답 간에 큰 점수 차이가 있으며, 이를 통해 구분이 쉽지만, "어려운 샘플"은 작은 차이를 보여주므로 학습에 더 가치 있다.
우리는 세 가지 다른 규모와 능력을 가진 인기 있는 MLLMs에서 실험을 수행한다. 포괄적인 비교를 위해 두 종류의 벤치마크, 환영현상 벤치마크 및 일반적인 MLLM 벤치마크에 대한 성능과 분석을 보고하며 우리의 접근법의 효율성을 입증한다.
우리의 주요 기여는 다음과 같이 요약된다:
우리는 다중모드 선호도 최적화 훈련에 대해 분석하고, 과적합 문제를 경험적으로 확인하며, 이로 인해 성능 저하가 발생할 수 있음을 보여준다.
우리는 비용 효과적인 프레임워크를 제안하여 시각-언어 모델(VLMs)을 활용해 추가 학습 없이 샘플 난이도를 추정하고 이를 난이도 인식 학습으로 선호 모델링을 개선한다.
우리는 환영현상과 종합 벤치마크에서 우리의 방법을 평가하며 실험 결과는 다양한 MLLMs의 성능을 효율적으로 향상시킨다는 것을 보여준다.
startsection section1@-2.0ex plus -0.5ex minus -.2ex1.5ex plus 0.3ex
minus0.2ex
Preliminaries 이 섹션에서는 인류 피드백에서의 강화 학습(RLHF)에서 직접 선호도 최적화(DPO) 파이프라인에 대한 간략한 개요를 제공한다.
startsectionparagraph4@1.5ex plus 0.5ex minus .2ex-1emRLHF 인류 피드백에서의 강화 학습(RLHF)은 LLMs을 인간의 가치와 의도와 일치시키는 널리 사용되는 프레임워크다. 표준 접근법은 먼저 보상 모델을 훈련하고, KL 정규화된 보상 목표를 최적화하여 선호도 일치와 출력 다양성을 균형 있게 한다. 최적화는 다음과 같이 작성될 수 있다:
여기서 $`\pi_{\text{ref}}`$는 참조 정책(일반적으로 SFT 모델)이고 $`\beta`$는 보상 최대화와 $`\pi_{\text{ref}}`$에 가까이 유지하는 간의 트레이드오프를 제어한다. 이 목표는 일반적으로 PPO로 최적화된다.
startsectionparagraph4@1.5ex plus 0.5ex minus .2ex-1emPair-wise
Preference Optimization 위의 RLHF에 성공적이었음에도 불구하고, PPO는 최적화하기 어렵다. PPO의 효율성을 향상시키기 위해 DPO는 보상 함수를 최적 정책으로 재파라미터화한다:
여기서 $`Z(x)`$는 적절한 정규화를 보장하는 분할 함수이고, 하이퍼파라미터 $`\beta`$, Eq. ([rlhf])에서의 KL 가중치와 유사하게 트레이드오프를 제어한다: 큰 값은 $`\pi_{\theta}`$가 참조 정책에 더 가깝게 유지되도록 장려하며 일반화 및 강건성을 보존하지만, 작은 값은 선호도 일치에 더 많은 중점을 두지만 과적합의 위험을 초래한다.
이 보상 형식을 기반으로 우리는 Bradley-Terry 모델을 직접 통합할 수 있다. 이를 통해 별도의 보상 모델을 학습하지 않고 선호도 목표를 최적화할 수 있다. 최적화 목표는 다음과 같이 설명된다:
여기서 $`r(x,y)`$는 $`\pi_\theta`$로 매개변수화될 수 있는 보상 함수이며, Eq. ( [dpo])에서 정의되며 $`y_c`$와 $`y_r`$은 쌍별 선호도 데이터에서 선택된 응답과 거절된 응답을 각각 나타낸다.
startsection section1@-2.0ex plus -0.5ex minus -.2ex1.5ex plus 0.3ex
minus0.2ex
Multimodal Preference Optimization Analysis 이 섹션에서는 다중모드 선호도 최적화에서 널리 퍼진 과적합 도전 과제에 대한 체계적인 조사를 제공한다. 경험적 분석을 통해 모델이 더 쉬운 학습 샘플에 과적합되면서 점점 더 어려운 인스턴스에서 효과적으로 배우는 것을 줄인다는 경향성을 보여준다. 이 현상은 특히 DPO와 같은 쌍별 훈련 패러다임에서 두드러진다. 이 과적합 행동은 다양한 실제 세계 시나리오에 적용될 때 모델 성능을 저하시킨다. 우리는 이러한 발견을 학습 동력학 및 보상 추세 분석으로 얻은 정량적인 증거로 입증한다.
>보상 동력학 및 가장 쉬운 샘플과 가장 어려운 샘플 사이의 Area-Under-Gap (AUG). 우리는 LLaVA-v1.5-7B의 보유 검증 세트에서 DPO와 DA-DPO가 BPO 데이터셋으로 학습되었을 때의 보상 경로를 제시한다. 첫 번째 행은 학습 반복 횟수에 따라 다양한 난이도 수준의 데이터 버킷의 보상이 어떻게 변화하는지 보여준다. 난이도는 세 가지 다른 프록시를 사용하여 추정되며, Section [sec:beta]에서 자세히 설명된다.
여기서 가장 쉬운 샘플(전체 범례의 75–100%)은 선택된 응답과 거절된 응답 사이에 가장 큰 간격을 가진 샘플을 나타낸다. 두 번째 행은 가장 쉬운 샘플과 가장 어려운 샘플 간의 총 보상 격차를 학습 과정에서 정량화하는 Area Under Gap (AUG)을 보고한다.
그림의 그늘진 영역은 세 가지 독립적인 시드에 대한 표준 편차를 나타내며, 학습 무작위성으로 인한 낮은 변동성 때문에 효과가 미묘하다.
startsectionparagraph4@1.5ex plus 0.5ex minus .2ex-1emAnalysis Setting 과적합을 체계적으로 분석하기 위해 우리는 제어된 평가 설정을 구성한다.
데이터셋은 학습 세트와 보유 검증 세트로 나뉘며 비율은 90% 대 10%이다. DPO와 DA-DPO 모델은 90%의 학습 부분에서 학습되며, 그들의 보상 성능은 학습 반복 횟수에 따라 검증 세트에서 주기적으로 평가된다. 샘플 난이도에 대한 오라클 주석이 없으므로 우리는 Section [sec:beta]에서 소개한 세 가지 다른 프록시 메트릭을 사용해 각 검증 샘플의 난이도를 추정한다. 각 프록시로부터 파생된 난이도 순위에 따라 우리는 검증 샘플을 가장 쉬운 것부터 가장 어려운 것으로 네 개의 동일한 크기의 버킷으로 분할한다.
이 설정은 모델의 보상이 다양한 난이도의 샘플에서 어떻게 진화하는지 살펴볼 수 있게 하여 선호도 최적화 중의 과적합 행동에 대한 통찰을 제공한다. 결과의 통계적 신뢰성을 평가하기 위해 우리는 세 가지 다른 무작위 시드로 실험을 반복하고 해당 표준 편차를 보고한다.
우리는 보상 동력학을 두 가지 보완적인 관점에서 분석한다.
첫 번째 관점은 학습 과정 내내 다양한 난이도의 샘플의 보상이 어떻게 진화하는지 살펴본다. 세 가지 다른 프록시 메트릭(Section <a href="#sec:beta” data-reference-type=" # Limit to 15k chars for stability