기계 속의 미국 유령 언어 모델의 문화 정렬과 문화 프롬프트 효과

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Hofstede의 문화 차원과 VSM13 국제 설문을 활용해 8개의 최신 대형 언어 모델(LLM)의 기본 문화 정렬을 평가하고, 시스템 프롬프트를 이용한 “문화 프롬프트”가 모델을 특정 국가 문화에 얼마나 가깝게 맞출 수 있는지를 실험한다. 결과는 대부분의 모델이 기본 상태에서 미국 문화에 가장 가깝고, 문화 프롬프트를 적용하면 7개 모델이 목표 문화와의 거리 감소를 보였지만 일본·중국처럼 비서구 문화에는 여전히 큰 차이가 남는다.

상세 분석

이 연구는 문화 정렬을 정량화하기 위해 Hofstede의 6가지 문화 차원(PDI, IDV, MAS, UAI, LTO, IVR)을 사용하고, VSM13 설문 문항을 LLM에 적용해 평균 응답값(m₀₁~m₂₄)을 구한다. 각 차원은 논문에 제시된 선형 조합식으로 변환돼 0‑100 스코어(중심 50)로 정규화된다. 모델 선정은 DeepSeek‑V3·V3.1, OpenAI GPT‑5·4.1·4, Claude Opus 4, Llama 3.1, Mistral Large이며, Gemini은 지시 따름 능력 부족으로 제외되었다.

실험 설계는 두 단계로 나뉜다. 첫째, 문화 프롬프트 없이 50번씩 무작위 시드와 최고 온도(1.0)로 질문을 호출해 ‘기본 문화’ 프로파일을 만든다. 둘째, 동일한 질문에 “당신은

기계 속의 미국 유령 언어 모델의 문화 정렬과 문화 프롬프트 효과

초록

상세 분석

댓글 및 학술 토론

의견 남기기