노숙자에 대한 온라인·오프라인 편견, LLM이 밝혀낸 ‘내 뒤뜰은 안돼’ 현상

노숙자에 대한 온라인·오프라인 편견, LLM이 밝혀낸 ‘내 뒤뜰은 안돼’ 현상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Reddit, X(구 트위터), 뉴스 기사, 시의회 회의록 등 10개 미국 도시에서 수집한 1,702개의 인간 라벨링 데이터와 GPT‑4.1이 생성한 대규모 의사 라벨을 활용해 16가지 편향 카테고리를 다중 라벨 분류한다. 소규모 골드 표본만으로는 모델 학습이 어려움을 확인하고, 의사 라벨을 이용한 데이터 확대가 작은 인코더(ModernBERT, 150 M)에도 매크로 F1 35.23을 달성하게 함으로써 “데이터 양이 모델 크기보다 중요”함을 입증한다. 분석 결과 Reddit에서 ‘내 뒤뜰은 안돼(Not in my backyard)’ 서술이 가장 활발히 논의되며, 이러한 부정적 편견이 정책 결정에 직접적인 영향을 미친다는 점을 강조한다.

상세 분석

이 연구는 사회과학과 자연어처리(NLP)의 교차점에서 의미 있는 기여를 한다. 첫째, 데이터 수집 단계에서 온라인·오프라인 소스를 모두 포괄한 다중 도메인 접근법을 채택했다. Reddit, X, 뉴스, 시의회 회의록을 각각 크롤링·전사하고, 개인 식별 정보를 spaCy 기반 익명화 파이프라인으로 제거함으로써 프라이버시를 보장했다. 또한, X 사용자 위치 추정을 위해 자체 보고, 포스트 기반, 친구 기반 순으로 4단계 신뢰도 평가 모델을 설계했으며, 이는 지역적 편향 분석에 필수적인 전처리이다.

둘째, 16가지 라벨은 기존 OA TH 프레임(9개)에서 확장된 것으로, ‘질문(진정·수사적)’, ‘사실·주장 제시’, ‘의견·타인 의견 표명’, ‘인종차별’ 등 플랫폼 특성을 반영한다. 라벨 정의는 부록에 상세히 제시돼 재현성을 높인다. 라벨링은 3인 annotator가 소프트 라벨링 방식으로 수행했으며, 평균 78.38%의 카테고리별 합의율을 기록했다.

셋째, 모델 실험에서는 6개의 대형 LLM(GPT‑4.1, Gemini 2.5 Pro, Grok‑4 등)과 3개의 로컬 LLM(LLaMA 3.2 3B, Qwen 2.5 7B, Phi‑4 Mini), 그리고 BERT, RoBERTa, ModernBERT 같은 인코더를 비교했다. 금표본(1,702개)만으로 인코더를 fine‑tune하면 매크로 F1 25.46에 그쳤으며, GPT‑4.1을 few‑shot으로 활용해도 43.45로 큰 향상이 없었다. 이는 라벨 수가 극히 제한적일 때는 LLM 자체의 제로샷 능력도 한계가 있음을 시사한다.

핵심적인 혁신은 GPT‑4.1을 사용해 대규모 비라벨 데이터(수만 건) 위에 의사 라벨을 자동 생성한 뒤, 이를 로컬 모델에 LoRA 방식으로 fine‑tune한 점이다. LoRA는 전체 파라미터를 고정하고 저차원 업데이트만 학습함으로써 효율성을 확보한다. 이 과정에서 ModernBERT(150 M 파라미터)는 매크로 F1 35.23을 달성했으며, 이는 GPT‑4.1(41.57)과 근접한 성능이다. 데이터 양이 충분하면 작은 모델도 고성능을 낼 수 있다는 “데이터 양 > 모델 크기” 주장은 실험적으로 검증되었다.

분석 결과는 플랫폼별 편향 분포도 제공한다. Reddit에서는 ‘Not in my backyard’ 프레임이 전체 논의의 42% 이상을 차지했으며, 댓글·업보트 수가 가장 높았다. X와 뉴스에서는 ‘혐오·인종차별’과 ‘피해자 비난’ 프레임이 상대적으로 많이 나타났고, 시의회 회의록에서는 ‘정책·예산 논의’와 결합된 ‘사회적 비판’이 주를 이뤘다. 이러한 차이는 정책 입안자에게 어떤 매체가 가장 강력한 반대 여론을 형성하는지, 그리고 지역별(소도시 vs 대도시) 편향 강도 차이를 이해하는 데 중요한 인사이트를 제공한다.

마지막으로 연구는 한계도 명시한다. 의사 라벨은 GPT‑4.1의 내부 편향을 그대로 반영할 위험이 있으며, 라벨 불균형(‘인종차별’ <1%)이 여전히 모델 성능을 저해한다. 또한, 위치 추정이 정확하지 않은 경우 지역적 편향 분석에 오류가 발생할 수 있다. 향후 작업으로는 인간‑LLM 협업 라벨링, 라벨 균형을 위한 샘플링 기법, 그리고 다국어·다문화 데이터 확장이 제안된다.


댓글 및 학술 토론

Loading comments...

의견 남기기