프롬프트 기반 분류에서 불균형을 드러내는 지니 지수의 숨은 역할

본 논문은 프롬프트 기반 텍스트·이미지 분류에서 클래스별 정확도 불균형을 정량화하고 완화하기 위한 지표로 지니 지수를 도입한다. 지니 지수를 직접 계산해 클래스 정확도 차이를 상대적·비례적으로 측정하고, 이를 최소화하는 사후 모델‑불가지론적 보정 방법을 제안한다. 실험 결과, 뉴스, 바이오메디컬, 제로샷 이미지 등 다양한 도메인에서 지니 기반 보정이 상위 클래스의 지배를 완화하고, 최약 클래스의 정확도를 현저히 향상시킴을 확인한다.

저자: Ruixi Lin

프롬프트 기반 분류에서 불균형을 드러내는 지니 지수의 숨은 역할
본 연구는 프롬프트 기반 분류에서 발생하는 클래스 정확도 불균형을 정량화하고 완화하기 위한 새로운 접근법을 제시한다. 서론에서는 대규모 언어 모델(LLM)과 비전‑언어 모델(VLM)이 실제 서비스에 투입될 때, 데이터 레벨에서의 오버샘플링·언더샘플링·데이터 증강 등 전통적인 불균형 해결 방법이 비용과 시간 면에서 비현실적임을 지적한다. 특히 프롬프트 기반 추론은 모델 파라미터를 고정한 채로 수행되므로, 출력 레벨에서의 불균형을 직접 교정하는 것이 필요하다고 주장한다. 이를 위해 저자는 소득 불평등을 측정하는 전통적인 지니 계수를 클래스 정확도에 직접 적용한다. 클래스 i의 정확도 Ai와 평균 정확도 γAcc를 정의하고, 지니 지수 GCLS를 GCLS = (1/(2N²γAcc)) Σi=1ⁿ Σj=1ⁿ |Ai−Aj| 로 계산한다. 이 식은 모든 ordered pair의 절대 차이를 평균화하고, 평균 정확도로 정규화함으로써 절대적인 정확도 수준에 무관하게 ‘상대적 집중’만을 측정한다. 지니 값이 0이면 완전 평등, 1에 가까울수록 한 클래스가 전체 정확도의 대부분을 차지한다는 의미이다. 논문은 지니와 기존 메트릭인 COBias를 비교한다. COBias는 평균 절대 차이를 구하지만 평균 정확도로 정규화하지 않으므로 절대적 격차에 민감하다. 반면 지니는 평균 정확도로 스케일링하여 비례적 불균형에 초점을 맞춘다. 수학적 관계 GCLS = ((N−1)/(2NγAcc))·COBias 가 도출되며, 두 메트릭이 서로 보완적인 특성을 가짐을 보여준다. 다음으로, 저자는 실제 LLM(Llama‑2‑13B, GPT‑3.5)와 비전 모델(CLIP, ViT)에서 GCLS를 벤치마크한다. 다양한 데이터셋(뉴스, 바이오메디컬 텍스트, 제로‑샷 이미지)에서 대부분의 모델이 GCLS > 0.4, 즉 강한 상대적 불균형을 보임을 확인한다. 이는 “헤드 클래스가 과도하게 지배”하고 있음을 의미한다. 불균형 완화를 위한 핵심 방법은 사후 보정(post‑hoc)이다. 각 클래스 i에 스칼라 보정 파라미터 βi를 도입하고, 원래 클래스 확률 pi를 p′i = softmax(log pi + βi) 로 변환한다. β 파라미터는 전체 손실 L = LCE + λ·GCLS(A′) 를 최소화하도록 학습한다. 여기서 LCE는 기존 교차 엔트로피 손실, λ는 지니 최소화의 중요도를 조절하는 하이퍼파라미터이다. 이 방식은 모델 파라미터를 고정한 채로 적용 가능하므로, 기존 파인튜닝 비용을 크게 절감한다. 실험에서는 세 가지 도메인에서 광범위한 평가를 수행한다. (1) Few‑shot 뉴스 분류(A GNews 2)에서는 기본 Llama‑2‑13B가 평균 정확도 71.2%와 GCLS 0.68을 기록했으며, 보정 후 평균 정확도 70.5% (소폭 감소)와 GCLS 0.42로 크게 개선되었다. 최약 클래스 정확도는 38%→51%로 상승했다. (2) 바이오메디컬 텍스트 분류에서는 GPT‑3.5 기반 모델이 GCLS 0.71을 보였고, 보정 후 0.45로 감소했으며, 최약 클래스 F1 점수가 22%→34% 향상되었다. (3) 제로‑샷 이미지 분류에서는 CLIP‑ViT가 GCLS 0.66을 기록했으며, 보정 후 0.40으로 감소하고, 최약 클래스 Top‑1 정확도가 12%→19% 상승했다. 모든 실험에서 COBias 역시 동시에 감소했으며, 전체 평균 정확도는 대부분 0.5~1%p 정도만 감소하거나 유지되었다. 결과 분석을 통해 지니 기반 보정이 (a) 상대적 집중을 완화하고, (b) 절대적 격차도 동시에 감소시키며, (c) 전체 성능을 크게 해치지 않음을 확인한다. 또한 λ 값에 따라 불균형 완화 정도와 전체 정확도 손실 사이의 트레이드오프를 조절할 수 있음을 보였다. 논문의 마지막 부분에서는 지니 지수가 “불균형 진단 도구”를 넘어 “직접 최적화 목표”가 될 수 있음을 강조한다. 기존 연구가 손실 함수 설계에 집중했지만, 출력‑레벨에서의 불균형을 정량화·최적화하는 새로운 패러다임을 제시한다는 점에서 학술적·실무적 의의가 크다. 향후 연구로는 다중모달 프롬프트, 연속형 라벨, 그리고 동적 프롬프트 생성 과정에서 지니를 활용한 적응형 보정 전략을 탐색할 것을 제안한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기