감독 학습으로 대형 언어 모델의 분포 정렬 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 인구 집단별 주관적 설문 응답 분포와 대형 언어 모델(LLM)의 출력 분포를 맞추기 위해 간단한 감독 기반 보정(supervised calibration)을 적용한다. 세 개의 설문 데이터셋, 15개 모델, 3가지 프롬프트 변형 및 3가지 확률 추출 방식을 실험한 결과, 기존의 인구통계 프롬프트(SD prompting)만으로는 정렬이 일관되지 않지만, 최소 1~10개의 라벨링된 예시만으로도 보정 모델을 학습하면 평균 정렬 점수가 약 16 %p 상승한다는 것을 확인하였다. 다만 그룹별로 개선 정도는 차이가 있으며, 인구통계 정보를 과도하게 일반화하는 위험도 경고한다.

상세 분석

이 논문은 “분포 정렬(opinion alignment)”이라는 새로운 평가 프레임워크를 도입한다. 기존 연구가 주로 개별 응답을 시뮬레이션하거나 다수 의견을 추정하는 데 초점을 맞춘 반면, 저자들은 각 설문 문항에 대해 인구통계 집단별 실제 응답 비율(정규화된 빈도)과 LLM이 생성한 확률 분포 사이의 Wasserstein 거리 기반 정렬 점수를 사용한다. 이를 위해 세 가지 서로 다른 확률 추출 기법을 설계하였다. 첫 번째인 ‘Verbalized’는 모델에게 직접 확률 벡터를 출력하도록 요구하고, 두 번째인 ‘Self‑random’은 온도 0.7로 여러 번 샘플링한 단일 선택을 집계해 분포를 만든다. 세 번째인 ‘Paraphrase’는 프롬프트 자체를 다섯 가지 변형(paraphrase)으로 바꾸어 각각의 선택을 수집한다. 이러한 다중 추출 방식은 모델 구조와 접근성(open‑source, open‑weight, API‑only)에 관계없이 적용 가능하도록 설계되었다.

프롬프트는 ‘Base’와 ‘Sociodemographic(SD)’ 두 종류로 나뉘며, 각각 표준, few‑shot, chain‑of‑thought(코트) 변형을 추가 실험한다. 실험에 사용된 데이터셋은 전 세계 인식 조사인 Welcome Global Monitor(2018), 미국 여론 조사인 OpinionQA, 그리고 가치관 조사인 World Values Survey로, 총 92개의 질문과 4,500개의 인간 응답 분포를 포함한다. 모델은 Claude‑3.5‑v2, Llama‑3.2‑90B, Mistral‑large, OLMo‑2‑7B‑I, Qwen‑2.5‑72B 등 15종을 대상으로 하였으며, 각 모델‑데이터‑프롬프트‑추출 조합마다 별도의 회귀 보정 모델을 학습한다.

보정 단계는 간단한 지도 회귀(supervised regression)이다. LLM이 출력한 각 선택지 확률(Dₖ)을 인간 라벨(Gₖ)과 짝지어 (Dₖ, Gₖ) 형태의 학습 데이터를 만든 뒤, scikit‑learn의 다양한 회귀 알고리즘(선형, 라쏘, 랜덤 포레스트 등) 중 최적 모델을 교차 검증으로 선정한다. 학습된 회귀는 테스트 질문에 대해 변환된 확률을 생성하고, 이를 다시 정규화해 최종 분포를 만든다. 중요한 점은 전체 학습 예시 수가 질문·집단·선택지 수에 비례해 수천 개에 달하지만, 저자들은 최소 1~10개의 전체 예시(즉, 전체 질문‑집단 조합)만으로도 유의미한 정렬 향상을 확인했다.

실험 결과는 두 가지 주요 질문에 답한다. 첫째, SD 프롬프트가 정렬을 개선하는가? 평균적으로는 약간의 향상이 보이지만, 모델·데이터·추출 방법에 따라 크게 변동한다. 둘째, 감독 보정이 정렬을 개선하는가? 보정 후 평균 정렬 점수가 16.3 %p 상승했으며, 특히 ‘Verbalized’ 방식에서 가장 큰 효과를 보였다. 그러나 일부 인구통계 그룹(예: 성별·연령·교육 수준)에 따라 개선 폭이 다르고, 일부는 오히려 감소하기도 했다. 이는 LLM이 원래 특정 그룹에 대해 과도하게 편향된 확률을 출력했을 가능성을 시사한다.

또한 보정이 모델 선택과 프롬프트 변형에 대한 민감도를 낮추어, 작은 모델이나 간단한 프롬프트에서도 비교적 일관된 정렬을 달성하게 한다. 이는 실제 서비스에서 다양한 LLM을 활용하면서도 최소한의 라벨링 비용으로 품질을 보장할 수 있음을 의미한다. 마지막으로 저자들은 인구통계 라벨을 고정된 ‘정체성’으로 취급하는 위험성을 경고하고, 분포 정렬 자체가 다원주의(pluralistic) 목표와 맞물려야 함을 강조한다.

감독 학습으로 대형 언어 모델의 분포 정렬 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기