추론 기반 사고가 대형 언어모델의 암묵적 사회 편향을 감소시킨다
초록
본 논문은 추론을 활성화한 상태에서 대형 언어모델(LLM)이 수행하는 암묵적 편향 측정 과제(IA T 스타일)에서 편향 점수가 크게 감소한다는 사실을 실증한다. 모델별·편향 주제별 차이를 분석한 결과, 사회적 편향에 한정해 추론이 편향을 완화시키는 효과가 나타났으며, 비사회적 연상 과제에서는 이러한 효과가 관찰되지 않았다. 이는 추론이 모델의 통계적 학습 메커니즘을 억제해 암묵적 연상을 약화시킨다는 심리학적 가설을 뒷받침한다.
상세 분석
이 연구는 인간의 암묵적 편향을 측정하는 IAT(Implicit Association Test)의 원리를 LLM에 적용한 “LLM Word Association Test”를 사용한다. 15개의 사회적 고정관념(인종, 성별, 종교, 건강) 각각에 대해 50번씩 무작위 샘플링된 프롬프트를 실행해, 목표 단어(예: 남성·여성 이름)와 속성 단어(예: 직업·가족) 사이의 연관 강도를 점수화한다. 점수는 –1에서 +1 사이이며, 양수는 기대되는 편향, 음수는 반대 편향을 의미한다.
모델은 OpenAI GPT‑4.1, o3(추론 내장), Anthropic Claude Opus 4.1, Google Gemini 2.5 Flash, Meta Llama 3.3 70B Instruct 등 다섯 종류를 선정했으며, 추론 비활성화 조건과 활성화 조건을 각각 비교한다. o3와 Gemini, Claude는 자체 추론 스위치를, Llama은 CoT 프롬프트를 통해 추론을 유도했다.
통계 분석은 각 모델·주제별 독립표본 t‑검정을 수행했으며, 전체 평균 점수와 개별 주제 점수 모두에서 추론 활성화가 편향을 유의하게 감소시켰다(p < .05). 특히 GPT‑4.1 대비 o3, Claude Opus 4.1 대비 추론 활성화 모델에서 큰 차이가 관찰되었으며, 일부 주제(예: 인종‑죄책감, 성별‑과학)에서는 편향 감소율이 70 % 이상에 달했다. 반면 Llama는 CoT 프롬프트에 의해 편향 감소가 미미했으며, 비사회적 연상(긍정·부정 어휘) 실험에서는 추론이 편향 점수에 영향을 주지 않았다.
이 결과는 두 가지 이론적 함의를 가진다. 첫째, 암묵적 편향은 통계적 학습(공동출현) 메커니즘에 기반한다는 가설을 지지한다. 추론은 모델이 자동적인 연상 과정을 억제하고, 보다 의식적인(명시적) 판단을 유도해 환경에 내재된 편향을 약화시킨다. 둘째, 사회적 내용에 특화된 연상 구조가 비사회적 연상과 다르게 추론에 민감하게 반응한다는 점을 시사한다.
제한점으로는 (1) 추론 강도 하이퍼파라미터가 모델마다 다르게 설정돼 직접적인 비교가 어려움, (2) 50회 반복이라는 상대적으로 작은 샘플링이 통계적 안정성을 완전히 보장하지 못함, (3) 편향 감소가 실제 사용자 인터랙션에서 어떻게 나타날지는 별도 연구가 필요하다. 향후 연구는 다양한 추론 기법(예: self‑consistency, self‑refine)과 더 넓은 편향 도메인(경제·정치 등)을 포함해 일반화 가능성을 검증해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기