스페인어 방언 편향을 드러내는 대형 언어 모델의 어휘 변이 분석
초록
본 연구는 GPT‑4o와 최신 GPT‑5 시리즈를 가상 조사자로 활용해, 21개 스페인어 사용 국가·8개 방언 구역에 걸친 934개의 어휘 항목을 대상으로 Yes‑No와 다중선택 형식의 질문을 제시한다. 모델은 스페인·적도 기니·멕시코·중앙아메리카·라 플라타 지역의 어휘를 비교적 정확히 인식하지만, 칠레 방언은 낮은 성능을 보인다. 국가별 디지털 자료량과는 무관한 결과로, 데이터 양 이외의 요인이 방언 표현에 영향을 미침을 시사한다.
상세 분석
본 논문은 스페인어의 지역적 어휘 변이를 정량적으로 평가하기 위해, 기존 언어학자들이 구축한 VARILEX 데이터베이스(934개 어휘, 9 057개 변이, 21개 국가)를 기준 골드 표준으로 삼았다. 두 종류의 설문식 프롬프트—예/아니오 질문(YNQF)과 다중선택 질문(MCQF)—를 설계해 LLM에게 각각 10 000개와 17 911개의 질문을 무작위·순서 섞어 제시하였다. YNQF에서는 ‘Sí’·‘No’만을 허용해 이진 분류 정확도를 F1 점수로 측정했고, MCQF에서는 정답 집합과 모델 응답 집합 사이의 겹침을 조정된 Jaccard 계수(J_adj)로 평가했다. J_adj는 변이 수가 많은 항목에서 우연히 발생할 수 있는 겹침을 보정하기 위해 하이퍼지오메트릭 기대값을 이용해 기대 Jaccard을 추정하고, 이를 실제 Jaccard에서 차감·정규화한 값이다.
실험 결과, GPT‑4o는 YNQF에서 F1 = 0.514로 가장 높은 성능을 보였으며, 최신 GPT‑5.1(0.499)·5.2(0.480)와도 큰 차이가 없었다. MCQF에서는 GPT‑5.1이 J_adj = 0.338로 최고였고, GPT‑4o는 0.314, GPT‑5.2는 0.336을 기록했다. 모든 모델이 무작위 베이스라인(YNQF = 0.249, MCQF = 0.110)보다 두 배 이상 향상된 점은 LLM이 지역 어휘 정보를 어느 정도 내재하고 있음을 의미한다.
국가·방언별 분석에서는 스페인, 적도 기니, 멕시코·중앙아메리카, 라 플라타 지역(아르헨티나·우루과이·파라과이)의 F1·J_adj 점수가 현저히 높았다. 반면 칠레는 YNQF에서 F1 = 0.372, MCQF에서 J_adj = 0.080으로 현저히 낮아, 모델이 해당 방언의 어휘 변이를 거의 인식하지 못함을 보여준다. 디지털 자원(코퍼스 규모)과 성능 간 상관관계를 조사한 결과, 자료량이 많은 국가가 반드시 높은 점수를 받는 것은 아니었다. 예를 들어, 디지털 자료가 풍부한 스페인과 비교적 적은 자료를 가진 칠레·볼리비아는 성능 격차가 크게 나타났다. 이는 LLM 학습 시 데이터의 질·대표성, 웹 크롤링 정책, 사전 처리 방식 등 양적 요인 외에 언어적·문화적 편향이 작용하고 있음을 시사한다.
또한, 모델이 다중선택 형식에서 정답을 과소 선택하거나 과다 선택하는 경향이 관찰되었으며, 이는 프롬프트 설계와 옵션 순서에 민감함을 의미한다. 연구자는 옵션을 무작위 섞어 순서 효과를 최소화했지만, 여전히 LLM이 ‘가장 흔한’ 변이를 우선 선택하는 경향이 있음을 확인했다. 이러한 현상은 향후 LLM을 지역 언어 서비스에 적용할 때, 프롬프트 엔지니어링과 후처리 전략이 필요함을 강조한다.
결론적으로, 본 연구는 스페인어 방언에 대한 LLM의 인식이 고르게 분포되지 않으며, 특정 지역(특히 칠레)의 어휘가 모델에 충분히 반영되지 않았음을 실증했다. 데이터 양 외에 데이터 수집·정제 단계에서의 편향, 언어 정책, 그리고 모델 아키텍처 자체가 디지털 언어 편향(DLB)을 야기한다는 점을 부각시켰다. 향후 연구는 더 다양한 언어·방언을 포함한 멀티모달 데이터와, 편향 완화를 위한 샘플링·재학습 기법을 탐색해야 할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기