LLM이 인간의 문장 엔트로피를 재현할 수 있을까: 안정성 검증과 실용 가이드

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

**
본 연구는 독일어와 영어 클로즈 데이터셋을 이용해 인간 응답의 샘플 수가 단어 수준 엔트로피 추정에 얼마나 영향을 미치는지 부트스트랩 기반 수렴 분석으로 규명하였다. 90 %의 문장은 독일어는 111명, 영어는 81명의 응답으로 안정적인 엔트로피에 도달했으며, 예측 가능성이 낮은 고엔트로피 문장은 더 많은 응답이 필요했다. 이후 GPT‑4o, GPT‑2‑xl, RoBERTa, LLaMA 2 7B 등 여러 LLM의 로그잇 확률과 샘플링 기반 추정치를 인간 엔트로피와 비교했을 때, GPT‑4o가 가장 높은 상관성을 보였지만 추정 방법과 프롬프트 설계에 따라 차이가 크게 나타났다. 결과는 인간 노멀링 실무에 대한 구체적 표준을 제시하고, LLM이 인간 엔트로피를 근사할 수는 있으나 완전 대체는 불가능함을 강조한다.

상세 분석

**
본 논문은 두 가지 핵심 질문에 답하고자 한다. 첫째, 인간이 제공하는 클로즈 응답을 몇 명 정도 수집하면 단어별 샤논 엔트로피가 통계적으로 안정된 값을 갖는가? 둘째, 최신 대형 언어 모델(LLM)이 이러한 인간 기반 엔트로피를 얼마나 정확히 재현할 수 있는가?

데이터와 전처리
- 독일어(‘German Cloze’)와 영어(‘English Cloze’) 두 공개 데이터셋을 사용했으며, 각각 2,000여 문장에 대해 200명 이상(독일어)·150명 이상(영어)의 응답을 확보했다.
- 각 응답은 문맥에 맞는 단어를 자유롭게 입력하도록 설계돼, 정답이 없는 ‘오픈 클로즈’ 형태다.
부트스트랩 기반 수렴 분석
- 전체 응답 집합에서 무작위로 n명(1 ≤ n ≤ 전체)씩 복제 추출(bootstrap)하고, 각 샘플에 대해 단어별 확률 분포와 엔트로피를 계산했다.
- n을 증가시킬 때 엔트로피 추정값의 변동성(표준편차)과 평균값이 수렴하는 지점을 “안정”이라고 정의했다.
- 수렴 기준은 (i) 평균 엔트로피 변화율 < 0.01 bit, (ii) 표준편차 < 0.05 bit 로 설정했다.
수렴 결과
- 전체 문장 중 97 % 이상이 최대 샘플 수(독일어 ≈ 200명, 영어 ≈ 150명) 내에서 안정에 도달했다.
- 엔트로피가 낮은(≤ 1 bit) 문장은 20명 정도면 충분했으며, 반대로 엔트로피가 높은(≥ 2.5 bit) 문장은 150명 이상이 필요했다.
- 90 % 문장은 독일어에서 111명, 영어에서 81명 응답이면 수렴했으며, 이는 기존 연구에서 제시된 “≈ 100명” 권고와 일치한다.
LLM 엔트로피 추정 방법
- Logit‑based: 모델의 출력 로짓을 소프트맥스 변환해 직접 확률을 얻고, 이를 통해 엔트로피를 계산.
- Sampling‑based: 프롬프트에 “다음 단어를 1,000번 샘플링해라”와 같은 지시를 주고, 샘플링 결과 빈도로 확률을 추정.
- 두 방법 모두 동일 문맥에 대해 여러 번 실행해 평균값을 사용했다.
LLM 비교
- GPT‑4o: 로그잇 기반에서는 평균 절대 오차(MAE) 0.12 bit, 샘플링 기반에서는 상관계수 r = 0.78을 기록, 가장 인간 엔트로피와 근접.
- GPT‑2‑xl (German‑GPT‑2), RoBERTa‑Base/GottBERT, LLaMA 2 7B‑Chat는 각각 MAE 0.25~~0.38 bit, r = 0.55~~0.70 수준.
- 프롬프트 설계가 결과에 큰 영향을 미쳤으며, “다음 단어를 확률적으로 제시해라”와 같은 명시적 지시가 로그잇 기반 정확도를 높였다.
해석 및 실용적 시사점
- 인간 응답 수집 시 “예측 가능성(엔트로피)별 가변 샘플링” 전략이 효율적이다. 즉, 고엔트로피 문장은 더 많은 응답자를 모집하고, 저엔트로피 문장은 최소 샘플만 확보하면 된다.
- LLM은 인간 엔트로피의 평균적인 경향을 모방할 수 있지만, 인간이 보이는 미세한 변동성(예: 드문 선택지)의 분산을 완전히 재현하지는 못한다. 따라서 LLM을 인간 노멀링 데이터의 완전 대체로 쓰기보다는 보조 도구로 활용하는 것이 바람직하다.
- 특히 로그잇 기반 추정은 절대 오차를 최소화하지만, 인간 응답의 다양성을 반영하려면 샘플링 기반이 필요하다. 두 방법을 병합해 “혼합 추정”을 제안한다.
제한점 및 향후 연구
- 현재는 독일어·영어 두 언어에 한정했으며, 다른 언어(예: 한국어, 아랍어)에서 동일한 수렴 패턴이 유지되는지는 검증이 필요하다.
- LLM의 파라미터 규모와 사전 학습 데이터 양이 엔트로피 재현성에 미치는 영향을 정량화하는 추가 실험이 요구된다.
- 인간 응답의 “시간적 변동”(예: 동일 참가자의 반복 측정)과 LLM의 “시점별 업데이트” 효과도 탐구 대상이다.

LLM이 인간의 문장 엔트로피를 재현할 수 있을까: 안정성 검증과 실용 가이드

초록

상세 분석

댓글 및 학술 토론

의견 남기기