엔트로피 기반 무감독 데이터 선택으로 효율적인 언어 모델 파인튜닝

엔트로피 기반 무감독 데이터 선택으로 효율적인 언어 모델 파인튜닝
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 정보 엔트로피, 생성 엔트로피, 의미 엔트로피 세 가지 측정을 결합한 EUDS 프레임워크를 제안한다. 원본 데이터와 LLM이 생성한 합성 데이터를 사전 필터링하여 고품질 소규모 데이터셋을 만든 뒤, 제한된 컴퓨팅 환경에서도 기존 전체 데이터 대비 동등하거나 향상된 성능을 달성한다. 실험은 감성 분석, 주제 분류, 질의응답 세 작업에서 수행되었으며, 데이터 양을 크게 줄이면서도 학습 시간과 비용을 절감한다.

상세 분석

EUDS(Entropy‑Based Unsupervised Data Selection) 프레임워크는 세 단계의 엔트로피 지표를 독립적으로 계산한 뒤, 구간 기반 선택 전략을 통해 최적의 엔트로피 범위를 자동으로 탐색한다. 첫 번째 지표인 정보 엔트로피(IE)는 n‑gram(uni‑gram, bi‑gram, tri‑gram)의 확률 분포를 Shannon 엔트로피 공식에 적용해 텍스트의 어휘 다양성과 불확실성을 정량화한다. 여기서 가중치 αₙ을 도입해 각 n‑gram 수준의 기여도를 조절함으로써, 짧은 문장과 긴 문장 모두에서 균형 잡힌 어휘 복잡성을 측정한다. 두 번째 지표인 생성 엔트로피(GE)는 사전 학습된 언어 모델이 해당 샘플을 생성할 때의 퍼플렉시티를 평균 로그 확률로 환산한다. 이는 모델이 다음 토큰을 예측하는 난이도를 직접 반영하므로, 고난이도(높은 GE) 샘플은 학습에 더 큰 정보를 제공할 가능성이 있다. 세 번째 지표인 의미 엔트로피(SE)는 의미적으로 동등한 생성 결과를 군집화하고, 각 군집에 대한 확률 분포의 엔트로피를 계산한다. 이 과정은 표현 다양성에 의한 과도한 엔트로피 상승을 억제하고, 실제 의미적 불확실성만을 남긴다.

EUDS는 전체 데이터셋에 대해 전역 탐색을 수행하지 않는다. 대신, 전체 후보 중 대표적인 서브셋을 무작위 추출하고, 그 서브셋에 대해 IE, GE, SE를 정량화한 뒤 분위수 기반 구간(quantile)으로 나눈다. 각 구간별로 샘플을 모아 간단한 파인튜닝을 수행하고 검증 성능을 측정한다. 가장 높은 성능‑데이터 비율을 보이는 구간을 최적 구간으로 정의하고, 동일 구간을 전체 데이터에 적용해 선택된 샘플을 추출한다. 이 방법은 구간 선택 비용을 O(1) 수준으로 낮추면서도, 전체 데이터와 동일한 엔트로피‑성능 관계를 보장한다는 이론적 근거를 제공한다.

합성 데이터 생성 단계에서는 GPT‑4o를 활용해 few‑shot 프롬프트와 온도 조절을 통해 다양한 레이블‑조건부 텍스트를 생성한다. 원본 데이터와 합성 데이터를 동일한 엔트로피 지표로 평가함으로써, 두 데이터 소스 간의 품질 차이를 정량적으로 비교하고, 필요에 따라 원본‑합성 비율을 최적화한다. 실험 결과, 원본 데이터만 사용할 때보다 합성 데이터를 포함한 후 EUDS로 선택한 데이터셋이 동일 혹은 더 높은 정확도(F1, ACC)를 기록했으며, 전체 데이터 대비 40~70% 정도의 데이터 양 감소에도 성능 저하가 거의 없었다.

컴퓨팅 비용 측면에서는, 엔트로피 계산 자체가 텍스트 길이에 비례하는 O(N) 복잡도이며, 서브셋 기반 구간 탐색이 전체 데이터에 대한 반복 학습을 요구하지 않으므로, 기존 영향 기반(influence‑based) 혹은 그라디언트 기반 선택 방법보다 3~5배 빠른 속도를 보였다. 또한, 프레임워크가 모델‑agnostic하게 설계돼 BERT, RoBERTa, GPT‑2 등 다양한 아키텍처에 그대로 적용 가능하다는 점도 실용성을 높인다.

요약하면, EUDS는 (1) 다중 레벨 엔트로피를 통한 데이터 불확실성 정량화, (2) 서브셋 기반 구간 탐색을 통한 효율적 샘플 선택, (3) 합성 데이터와 원본 데이터를 통합한 데이터 믹싱 전략을 결합해, 제한된 컴퓨팅 환경에서도 고성능 언어 모델 파인튜닝을 가능하게 하는 종합 솔루션이다.


댓글 및 학술 토론

Loading comments...

의견 남기기