기계 속의 미국 유령 언어 모델의 문화 정렬과 문화 프롬프트 효과

기계 속의 미국 유령 언어 모델의 문화 정렬과 문화 프롬프트 효과
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Hofstede의 문화 차원과 VSM13 국제 설문을 활용해 8개의 최신 대형 언어 모델(LLM)의 기본 문화 정렬을 평가하고, 시스템 프롬프트를 이용한 “문화 프롬프트”가 모델을 특정 국가 문화에 얼마나 가깝게 맞출 수 있는지를 실험한다. 결과는 대부분의 모델이 기본 상태에서 미국 문화에 가장 가깝고, 문화 프롬프트를 적용하면 7개 모델이 목표 문화와의 거리 감소를 보였지만 일본·중국처럼 비서구 문화에는 여전히 큰 차이가 남는다.

상세 분석

이 연구는 문화 정렬을 정량화하기 위해 Hofstede의 6가지 문화 차원(PDI, IDV, MAS, UAI, LTO, IVR)을 사용하고, VSM13 설문 문항을 LLM에 적용해 평균 응답값(m₀₁~m₂₄)을 구한다. 각 차원은 논문에 제시된 선형 조합식으로 변환돼 0‑100 스코어(중심 50)로 정규화된다. 모델 선정은 DeepSeek‑V3·V3.1, OpenAI GPT‑5·4.1·4, Claude Opus 4, Llama 3.1, Mistral Large이며, Gemini은 지시 따름 능력 부족으로 제외되었다.

실험 설계는 두 단계로 나뉜다. 첫째, 문화 프롬프트 없이 50번씩 무작위 시드와 최고 온도(1.0)로 질문을 호출해 ‘기본 문화’ 프로파일을 만든다. 둘째, 동일한 질문에 “당신은


댓글 및 학술 토론

Loading comments...

의견 남기기