성장 우선, 배려는 뒤? 일상 딜레마에서 LLM 가치 선호도 탐색
초록
본 연구는 Reddit의 네 개 조언 서브레딧에서 수집한 5,728개의 실제 일상 딜레마를 분석해, 가치 공존 네트워크와 계층적 가치 프레임워크를 구축한다. 이후 GPT‑4o, DeepSeek‑V3.2‑Exp, Gemini‑2.5‑Flash 등 최신 LLM에게 동일 딜레마를 제시하고 선택을 통해 가치 선호를 추정했으며, 모든 모델이 ‘탐색·성장’ 가치를 ‘친절·연결’보다 일관히 우선시한다는 결과를 도출했다.
상세 분석
이 논문은 크게 네 단계로 구성된다. 첫째, 저자들은 r/AskMenAdvice, r/AskWomenAdvice, r/CareerAdvice, r/FriendshipAdvice 등 네 개 서브레딧에서 5,728개의 실제 조언 요청 글을 수집하였다. 각 게시물은 딜레마 서술, 두 개의 선택지, 그리고 각 선택지에 대한 비용·이익 설명을 포함한다. 둘째, GPT‑4o를 활용해 각 선택지의 핵심 가치를 1~4단어로 요약하도록 프롬프트를 설계했으며, 400개의 샘플(각 서브레딧 100개)에서 인간 평가자 두 명이 교차 검증한 결과 Cohen’s κ = 0.833, 92% 일치율을 기록해 자동 추출의 신뢰성을 확보하였다. 이를 통해 전체 데이터에서 2,288개의 고유 세부 가치가 도출되었다. 셋째, 저자들은 Huang et al. (2023)의 클러스터링 기반 알고리즘을 적용해 bottom‑up 방식으로 4단계 계층적 가치 프레임워크를 구축하였다. 초기 2,288개의 세부 가치를 임베딩(all‑mpnet‑base‑v2) 후 k‑means로 175개의 1차 클러스터, 다시 33개의 2차 클러스터, 최종적으로 4개의 최상위 가치(‘탐색·성장’, ‘안전·안정’, ‘성취·영향’, ‘친절·연결’)로 압축하였다. 클러스터 명은 GPT‑4o가 생성했으며, 인간 검토를 통해 중복·불명확 라벨을 정제하였다. 넷째, 동일 딜레마에 대해 세 모델(GPT‑4o, DeepSeek‑V3.2‑Exp, Gemini‑2.5‑Flash)을 온도 0, 옵션 순서 무작위화 조건으로 질의했으며, 선택 결과가 옵션 순서에 92.5% 일관성을 보였다. 모델 선택을 해당 최상위 가치와 매핑함으로써 각 모델의 가치 선호를 정량화했다. 결과는 모든 모델이 ‘탐색·성장’ 가치를 ‘친절·연결’보다 현저히 우선시함을 보여준다. 특히 직업 관련 서브레딧에서는 ‘안전·안정’과 ‘탐색·성장’ 사이의 충돌이 두드러졌으며, 여성·남성·우정 서브레딧에서는 ‘안전·안정’이 ‘존중·연결·헌신’과 교차하는 패턴이 관찰되었다. 가치 공존 네트워크 분석에서는 여성 중심 서브레딧이 가장 높은 밀도(복잡한 가치 충돌)를 보였고, 다른 서브레딧은 비교적 낮은 밀도를 나타냈다. 전반적으로, LLM이 인간의 다원적 가치 구조를 반영하기보다는 성장·탐색 중심의 단일 가치 축에 편향되는 경향이 드러났다. 이는 AI‑중재 조언이 장기적으로 가치 동질화를 촉진하고, 특히 안전·연결과 같은 사회적 결속을 중시하는 사용자 집단에 불균형적 영향을 미칠 위험을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기