대규모 차트 이해 데이터셋의 효율적 능력 검증을 위한 엔트로피 기반 서브셋 선택
초록
EXaMCaP은 차트 이해(ChartU) 학습 데이터의 전체 미세조정 비용을 절감하기 위해 엔트로피 증가를 목표로 하는 서브셋을 자동으로 선택한다. 퍼플렉시티 기반 극단 샘플 필터링 후, K‑Means 클러스터링과 유사도 행렬의 고윳값을 이용한 Von Neumann 엔트로피를 계산해 가장 정보량이 큰 샘플을 반복적으로 추가한다. 실험 결과, 다양한 규모와 모델(LLaVA‑Next‑LLaMA3‑8B, Qwen2.5‑VL‑3B 등)에서 전체 데이터셋을 미세조정했을 때와 동등하거나 더 높은 능력 향상을 서브셋만으로도 검증할 수 있음을 보였다.
상세 분석
EXaMCaP은 차트 이해(ChartU) 분야에서 데이터 규모가 급증함에 따라 발생하는 “전체 미세조정 → 성능 평가” 루프의 비효율성을 근본적으로 해결하고자 한다. 핵심 아이디어는 데이터 다양성 = 엔트로피 라는 가정에 기반한다. 엔트로피는 확률 분포의 불확실성을 정량화하므로, 다양한 차트 유형·질문·시각적 패턴을 고르게 포함하는 서브셋은 전체 데이터셋이 제공하는 지식 영역을 충분히 대변할 수 있다.
-
극단 샘플 필터링(Extreme Sample Filtering)
- 퍼플렉시티(PPL)를 이용해 학습 난이도가 지나치게 높거나 낮은 샘플을 사전 제거한다. 이는 모델이 학습 과정에서 불필요한 잡음에 노출되는 것을 방지하고, 엔트로피 계산 시 의미 있는 샘플만을 대상으로 하게 만든다.
-
클러스터 기반 탐색
- 전체 후보 집합을 K‑Means 로 L개의 클러스터로 나눈 뒤, 각 클러스터 내부에서 그리디하게 샘플을 선택한다. 클러스터링은 고차원 임베딩 공간에서 연산 비용을 크게 낮추면서도 전역적인 특성 커버리지를 유지한다.
-
엔트로피 증가 최대화(Entropy Gain Maximization)
- 선택된 집합 Gₜ에 새로운 샘플 z를 추가했을 때의 엔트로피 차이 ΔE = E(Gₜ∪{z}) – E(Gₜ)를 계산한다. 여기서 엔트로피는 Von Neumann 엔트로피를 사용한다.
- 먼저 샘플 임베딩(마지막 레이어 평균 풀링)으로 유사도 행렬 M을 만든 뒤, 트레이스 정규화를 통해 밀도 행렬 ρ = M / Tr(M) 로 변환한다. ρ의 고윳값 λ₁…λₙ에 대해 E(ρ) = – Σ λᵢ log λᵢ 를 구한다.
- 엔트로피가 최대화될수록 ρ는 대각에 가까워지고 고윳값은 균등 분포에 근접한다. 이는 선택된 샘플들이 서로 최소한의 상관관계를 가지며, 데이터 다양성이 최고 수준임을 의미한다.
-
그리디 샘플링 절차
- 각 클러스터에서 초기 두 샘플을 무작위로 선택해 기본 엔트로피를 계산한다. 이후 남은 후보 중 ΔE가 가장 큰 샘플을 반복적으로 추가한다. 이 과정은 전체 서브셋 크기 K가 채워질 때까지 진행된다.
-
실험 설계 및 결과
- 다양한 차트 이해 벤치마크(ReachQA, CharXiv, ChartM3 등)와 두 종류의 MLLM(LLaVA‑Next‑LLaMA3‑8B, Qwen2.5‑VL‑3B)에서 전체 데이터셋을 미세조정한 경우와 서브셋만을 미세조정한 경우를 비교하였다.
- 0.5 %~5 % 규모의 서브셋에서도 전체 미세조정 대비 95 % 이상의 성능을 유지하거나, 특정 벤치마크에서는 오히려 향상된 결과를 보였다.
- 기존의 대표적인 서브셋 선택 방법(Gradient‑Based, COINCIDE, DataTailor 등)보다 엔트로피 기반 선택이 일관적으로 높은 능력 증폭 비율을 기록했다.
-
핵심 기여와 한계
- 기여: (1) 전체 미세조정 비용을 크게 절감하면서도 데이터셋의 지식 커버리지를 유지하는 프레임워크 제시, (2) Von Neumann 엔트로피를 활용한 정량적 다양성 측정 방법 도입, (3) 다양한 모델·데이터 규모에 대한 광범위한 실증 검증.
- 한계: 엔트로피 계산에 사용되는 임베딩은 사전 학습된 MLLM에 의존하므로, 초기 모델의 표현력이 낮으면 다양성 평가가 부정확할 수 있다. 또한 그리디 선택은 전역 최적을 보장하지 않으며, 클러스터 수 L과 K‑Means 초기화에 민감하다. 극단 샘플 필터링 단계에서 지나치게 높은 PPL을 가진 “hard” 샘플이 제거될 경우, 실제로 모델이 학습해야 할 어려운 케이스를 놓칠 위험도 존재한다.
전반적으로 EXaMCaP은 차트 이해 데이터셋의 효율적 검증을 위한 실용적인 솔루션을 제공하며, 엔트로피 기반 다양성 측정이 대규모 멀티모달 학습 파이프라인에서 중요한 역할을 할 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기