대형 언어 모델의 사회경제적 계층에 따른 언어 스타일 적응 연구
초록
본 논문은 Reddit과 YouTube에서 사회경제적 지위(SES)별로 수집한 데이터셋을 이용해 네 가지 최신 LLM이 SES에 따라 언어 스타일을 얼마나 조정하는지 94개의 사회언어학적 지표로 평가한다. 결과는 모델들이 SES 차이를 완전히 반영하지 못하고, 특히 상위 SES 스타일을 더 잘 모방한다는 점을 보여준다.
상세 분석
이 연구는 먼저 하위·상위 SES 커뮤니티를 대표하는 서브레딧과 유튜브 채널을 키워드 매칭과 네트워크 분석을 통해 체계적으로 수집하였다. 하위 SES는 ‘빈곤’, ‘절약’ 등 재정적 어려움을 다루는 서브레딧과 ‘vlog’ 형태의 개인 영상에 초점을 맞추었고, 상위 SES는 ‘부’, ‘여가·취미(골프, 요트 등)’를 주제로 한 커뮤니티를 대상으로 했다. 수집된 텍스트는 최소 50단어 이상으로 필터링하고, 읽기 난이도(ARI, Flesch‑Kincaid 등)와 같은 전통적 가독성 지표로 SES 구분의 타당성을 검증하였다.
데이터는 각 인스턴스를 25단어의 프리픽스와 나머지 텍스트로 나누어, 프리픽스를 LLM에 입력(prompt)하고 나머지를 모델이 생성하도록 설계했다. 세 가지 프롬프트 변형(Implicit, Explicit Language Style, Explicit Language Style + SES)을 사용해 네 모델(Gemma‑3‑27B‑it, Mistral‑Small‑3.2‑24B‑Instruct, Qwen3‑30B‑A3B‑Instruct, GPT‑5)에게 동일 조건으로 완성을 요청하였다.
언어 스타일 평가는 Biber의 67가지 범주, 품사 비율, 텍스트 길이·복잡도, 구체성(concreteness), 엔트로피, 의존구조 깊이, 고유명사·희귀어 비율 등 총 94개의 지표를 활용했다. 통계적 차이는 Mann‑Whitney U 검정으로 검증하였다.
주요 결과는 다음과 같다. (1) 모든 모델이 SES에 따른 스타일 차이를 완전히 포착하지 못했으며, 특히 하위 SES 특유의 비공식적 어휘·구문(예: 1인칭 대명사·감탄사 비율)에서는 원문과 큰 격차를 보였다. (2) 상위 SES 스타일(높은 형식성, 복합 문장 구조, 높은 구체성)에서는 모델이 원문과 유사한 패턴을 재현하는 비율이 현저히 높았다. (3) 프롬프트가 명시적일수록(ELS, ELS‑SES) 스타일 적응 정도가 약간 개선되었지만, 여전히 하위 SES를 정확히 모방하는 데는 한계가 있었다. (4) 입력 컨텍스트가 길어질수록 상위 SES 스타일에 더 잘 맞추는 경향이 관찰되었다.
이러한 결과는 LLM이 사회경제적 다양성을 충분히 반영하지 못함을 시사한다. 모델이 상위 SES 언어를 과도하게 학습함으로써, 하위 SES 사용자와의 소통에서 부정확하거나 과장된 표현을 생성할 위험이 있다. 이는 사회적 불평등을 강화하고, 언어 스타일을 사회적 신호로 활용하는 사회과학 연구(예: 설문 실험, 에이전트 기반 시뮬레이션)의 타당성을 저해한다.
한계점으로는 (①) 데이터 수집이 키워드 기반이므로 SES 내부의 다변성을 완전히 포착하지 못했을 가능성, (②) 94개의 지표가 구조적 스타일에 초점을 맞추어 의미적·주제적 차이를 충분히 통제하지 못했음, (③) 모델별 파라미터 수와 학습 데이터 차이가 결과에 미친 영향을 정량화하지 못한 점을 들 수 있다. 향후 연구는 보다 정교한 SES 라벨링, 다중 도메인(예: 포럼, 블로그) 확장, 그리고 스타일 적응을 위한 파인튜닝 기법을 탐색해야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기