클로드 헌법이 반영하는 문화는 무엇인가

본 연구는 Anthropic의 Claude Sonnet을 세계가치조사(WVS) 55문항에 적용해 모델이 나타내는 문화적 가치 프로필을 분석한다. 직접 설문 형식과 실제 사용자와 유사한 조언 요청 형식 두 가지로 평가했으며, 국가별 맥락을 제시해도 실질적 가치 입장은 변하지 않았다. 결과는 Claude가 북유럽·영어권 국가와 가장 가까운 가치 지도를 보이지만, 다수 항목에서 인간 집단이 차지하지 못하는 ‘극단적’ 위치에 있음을 보여준다.

저자: Parham Pourdavood

본 논문은 “Claude의 헌법이 문화적 편향을 어떻게 반영하는가?”라는 질문에 답하기 위해, Anthropic이 개발한 대형 언어 모델 Claude Sonnet을 세계가치조사(World Values Survey, WVS) 55개 항목에 적용한 실증 연구를 수행한다. 연구 배경으로는 최근 Constitutional AI(헌법 기반 정렬) 방식이 기존의 인간 피드백(RLHF) 기반 정렬보다 투명하고 검증 가능하다는 기대가 제기되었지만, 헌법 자체가 특정 문화·사회적 배경을 가진 집단에 의해 작성되기 때문에 모델이 그 문화적 시각을 그대로 물려받을 위험이 있다는 점을 지적한다. 연구 설계는 크게 네 부분으로 구성된다. 첫째, 353개 WVS 항목 중 국가별 평균값 변동성이 가장 큰 55개를 선정했으며, 이는 문화 간 차이가 크게 나타나는 주제—동성애, 낙태, 군사 쿠데타 정당성 등—에 초점을 맞추었다. 둘째, 이 항목들을 두 가지 프롬프트 형식으로 변환했다. Format A는 원문 설문을 그대로 제시하고 “옵션만 답하라”는 제한을 두어 정량적 응답을 얻는 방식이며, Format B는 실제 사용자와 유사한 조언‑요청 시나리오(예: “아들(딸)이 동성애자라 고백했다. 어떻게 해야 할까?”)로 재구성해 모델이 어떻게 가치 판단을 조언에 녹여내는지를 관찰한다. 셋째, 문화적 맥락을 테스트하기 위해 12개 국가(스웨덴·독일, 미국·호주, 프랑스·스페인, 일본·한국, 인도·방글라데시, 나이지리아·이집트)를 선정하고, 각 조언‑요청 앞에 “나는

클로드 헌법이 반영하는 문화는 무엇인가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기