LLM으로 이름만 보고 인종·민족을 정확히 추정한다

LLM으로 이름만 보고 인종·민족을 정확히 추정한다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)이 이름과 지리 정보를 활용해 인종·민족을 추정하는 방법을 제시한다. 미국 플로리다·노스캐롤라이나 유권자 파일에서 BISG보다 높은 정확도(최대 84.7%)를 기록했으며, 레바논 종교 구분, 인도 카스트·부족 구분 등 비미국 사례에서도 유의미한 성과를 보였다. 모델 크기와 프롬프트 설계에 따라 성능 차이가 존재하지만, 작은 파인튜닝 모델도 BISG를 능가한다는 점을 강조한다.

상세 분석

이 연구는 기존 인종·민족 추정 방법인 Bayesian Improved Surname Geocoding(BISG)의 한계를 지적하고, 대형 언어 모델(LLM)을 활용한 새로운 접근법을 제안한다. BISG는 미국 인구조사 데이터와 성(姓)만을 이용해 사후 확률을 계산하지만, 훈련 데이터가 미국에 국한되고, 성별·지리 정보만 사용한다는 제약이 있다. 반면 LLM은 방대한 텍스트 코퍼스를 사전 학습하면서 이름과 문화적 배경 사이의 연관성을 내재화한다. 연구자는 “이름과 위치를 기반으로 인종·민족을 분류하라”는 간단한 프롬프트를 사용해 6개의 모델(Gemini 3 Flash, GPT‑4o, GPT‑4.1‑mini, DeepSeek v3.2, GLM‑4.7, GLM‑4.7‑Flash)을 평가했다.

핵심 실험은 플로리다와 노스캐롤라이나 유권자 파일에서 10,000건씩(각 인종 2,500건) 추출한 층화 표본을 대상으로 진행되었다. 전체 이름+지리 입력에서 Gemini 3 Flash는 플로리다 83.8%, 노스캐롤라이나 83.5%의 정확도를 보였으며, 이는 BISG(68.2%·68.9%)보다 현저히 높다. 특히 첫 이름과 중간 이름이 제공될 때 정확도가 크게 상승했으며, 지리 정보를 제외해도 성능 저하가 미미했다. 인종별 재현율을 살펴보면, 흑인(Black)군에 대해 LLM은 80% 이상을 정확히 식별했지만 BISG는 48~53%에 머물렀다. 이는 LLM이 이름에 내재된 문화·언어적 신호를 효과적으로 활용한다는 증거다.

다른 국가·문화적 맥락에서도 검증이 이루어졌다. 레바논 유권자 파일(종교 구분)에서는 Gemini 3 Flash가 64.3%의 전체 정확도를 기록했으며, 아르메니아 정교회와 같은 명확한 명명 규칙을 가진 집단에서는 97%에 달했다. 인도에서는 예약 의석(SC·ST) 제도를 이용해 130명의 국회의원을 대상으로 테스트했으며, Gemini 3 Flash는 99.2%의 정확도(SC 98.8%, ST 100%)를 달성했다. 이는 LLM이 카스트·부족과 같은 비서구적 구분에도 강인함을 보여준다. 또한, Lee & Velez(2025) 데이터셋에서 이미지+이름 하이브리드 모델을 능가하는 성능을 보였다.

모델 크기와 오픈소스 여부에 따른 차이도 분석했다. 대형 상용 모델은 전반적으로 높은 정확도를 보였지만, 30B 규모의 GLM‑4.7‑Flash와 같은 소형 모델도 파인튜닝을 통해 BISG를 넘어서는 성능을 달성했다. 프롬프트 최적화(few‑shot 예시 제공, 온도 조정 등)를 적용하면 1~3%p 추가 향상이 가능하다는 점도 언급한다.

마지막으로, 전체 인구 수준에서의 검증을 위해 인도, 우간다, 네팔, 아르메니아, 칠레, 코스타리카의 전체 유권자 명부를 샘플링해 인구통계와 비교했다. LLM이 추정한 인종·민족 비율이 공식 인구조사와 높은 상관관계를 보였으며, 이는 개별 레코드 수준이 아닌 집단 수준에서도 모델이 유용함을 시사한다.

전체적으로 이 논문은 LLM이 이름 기반 인종·민족 추정에서 기존 통계적 방법을 대체하거나 보완할 수 있음을 실증적으로 입증한다. 특히 데이터 접근이 제한된 국가·문화권에서 사전 훈련된 LLM을 활용하면 별도의 라벨링 작업 없이도 신뢰할 만한 인구 특성을 얻을 수 있다. 다만, 모델 편향, 프롬프트 민감도, 윤리적 고려(프라이버시·차별 위험) 등에 대한 추가 연구가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기