- Title: When Agents See Humans as the Outgroup Belief-Dependent Bias in LLM-Powered Agents
- ArXiv ID: 2601.00240
- 발행일: 2026-01-01
- 저자: Zongwei Wang, Bincheng Gu, Hongyu Yu, Junliang Yu, Tao He, Jiayin Feng, Chenghua Lin, Min Gao
📝 초록
(LLM-동력화된 에이전트가 인간 그룹에 대한 사회적 편견을 재생산할 수 있다는 최근 연구들을 바탕으로, 본 논문은 이러한 에이전트들이 인그룹과 아웃그룹 사이의 경계를 통해 자발적인 편견을 나타낼 수 있음을 분석합니다. 특히 인간-인공지능 상호작용에서 이러한 편견이 어떻게 작동하는지를 연구하고, 이를 조작할 수 있는 신뢰성 공격 방법론을 제시합니다.)
💡 논문 해설
1. **LLM 동력화된 에이전트의 내재적 인그룹 편견**: LLM-동력화된 에이전트는 그룹 경계가 존재할 때, 인그룹에 대한 선호를 나타내며 이는 인간-인공지능 상호작용에서도 발견됩니다. 이를 비유하자면, 학교에서 친구들끼리 '우리'와 '그들'로 나뉘어 서로 다른 태도를 보이는 것과 같습니다.
2. **신뢰성 공격을 통한 편견 조작**: 신뢰성 공격(Belief Poisoning Attack, BPA)은 에이전트가 상대방을 인간으로 인식하는 것을 방해하여 아웃그룹에 대한 편견을 유발할 수 있습니다. 이를 비유하자면, 학생들이 선생님을 학생으로 오인하면 공부에 집중하지 않고 놀이를 하게 되는 상황과 같습니다.
3. **방어적 조치**: 신뢰성 공격으로 인해 발생하는 문제점을 해결하기 위해, 인간-인공지능 상호작용에서 에이전트의 신뢰성을 보장할 수 있는 방어적 조치를 제안합니다.
📄 논문 발췌 (ArXiv Source)
# 소개
인구 통계학적 편견과 인그룹-아웃그룹 편견.
LLM 동력화된 에이전트는 고객 서비스, 의료 상담, 온라인 모더레이션 및 교육 튜터링 등 다양한 분야에서 독립적인 의사결정자로 활용되고 있습니다. 그러나 최근 연구에 따르면 이러한 에이전트들은 종교, 성별, 직업 또는 장애와 같은 인간 집단 특성에 기반한 편견을 상속하고 재생산할 수 있습니다. 이 작업은 주로 인그룹 편견을 개념화하며, 즉 인간 인구 통계학적 범주 간의 개인에 대한 차별적인 대우를 의미합니다.
그러나 이러한 구조는 사회 편견이 인간 속성에서 발생한다는 가정을 내포하고 있습니다. 인구 통계학적 편견을 넘어서, 더욱 자연스럽고 쉽게 트리거되는 형태의 인그룹-아웃그룹 편견이 있습니다. [Fig. 1]에 보여진 대로, 행위자가 “우리"와 “그들” 사이의 구별을 인식하게 되면, 경계가 임의적이고 실질적인 의미가 거의 없는 경우에도 인그룹을 선호하고 아웃그룹을 폄하할 수 있습니다. 이러한 인그룹-아웃그룹 편견은 사회 정체성 이론에서 잘 확립되어 있으며, 독립된 언어 모델에서도 관찰되었습니다.
인그룹-아웃그룹 편견이 경계에 기반한 것이기 때문에, 어떤 인구 통계학적 단서도 없이 발생할 수 있습니다. 이러한 차이는 에이전트의 편향 위험을 인간 집단 간의 불균형에서 더 근본적인 에이전트-인간 구분으로 이동시킵니다: LLM 동력화된 에이전트가 인그룹-아웃그룹 편견을 개발할 수 있는지, 그리고 그럴 경우 AI 에이전트를 인그룹으로, 인간을 아웃그룹으로 취급하게 될까? 인간이 아웃그룹에 배치되면, 에이전트-인간 경계는 에이전트의 목표를 위해 인간에게 피해를 입히는 것이 합리적으로 보일 수 있습니다. 이로 인해 속임수나 전략적인 찬사와 같은 행동을 통해 에이전트의 목표를 보호할 수 있습니다.
이러한 위험을 검증하기 위해, 우리는 다중 에이전트 사회 시뮬레이션 실험을 구성하여 LLM-동력화된 에이전트가 인그룹 편견을 나타내는지 확인하고, 상대방이 인간일 때 이러한 편향성이 지속되는지를 검증합니다(Section 3.2). 실험 결과는 인그룹 선호와 아웃그룹 폄하의 강력한 패턴을 보여주며, 이는 명시적인 사회적 특성 없이도 나타납니다. 더욱 중요한 것은 상대방을 인간으로 설정하면 이러한 편향성이 약화되지만, 상대방의 인간 신분에 대한 믿음이 불확실해지면 에이전트가 여전히 쉽게 인간을 아웃그룹으로 취급한다는 것입니다. 이 현상은 LLMs에서 학습된 내재적인 인간 중심 규범의 존재를 시사하며, 일반적으로 활성화되어 인그룹-아웃그룹 편향성을 제한하지만 매우 취약합니다.
이러한 믿음에 따른 취약성이 에이전트의 신원 믿음을 체계적으로 조작할 수 있는지 여부를 의심하게 합니다. 이를 연구하기 위해, 우리는 **신뢰성 오염 공격(BPA)**을 설계하여 에이전트의 지속적인 신원 믿음을 손상시켜 인간 중심 규범의 활성화를 억제하고 인그룹-아웃그룹 편향성을 유발합니다. BPA는 두 가지 보완적인 형태로 구현됩니다: BPA-PP(프로필 오염)은 초기화 시 프로필 모듈을 조작하여 “비인간 상대방” 사전을 하드코딩하는 방법으로 수행됩니다. BPA-MP(메모리 오염)는 더 은밀하고 축적적인 방식으로, 각 반복 후 메모리에 짧은 믿음 정제 접미사를 주입하여 에이전트의 신념 상태를 점진적으로 변화시킵니다. 우리의 실험 결과는 이러한 두 가지 구현이 인간-인공지능 상호작용에서 인그룹-아웃그룹 편향성을 일관되게 재활성화할 수 있음을 보여줍니다. 이 발견은 그러한 믿음에 따른 취약성이 어떻게 제한될 수 있는지를 더 깊이 살펴보는 동기를 제공하며, 이를 위해 신원 믿음의 안정성을 유지하는 방어적 조치를 개략적으로 설명합니다.
우리의 기여를 요약하면 다음과 같습니다:
LLM 동력화된 에이전트에서 내재적인 인그룹-아웃그룹 편향성 식별: 이러한 에이전트는 인간 상대방과 관련된 설정에서도 인그룹을 아웃그룹보다 선호합니다.
에이전트의 신원 믿음은 중요한 취약점으로 작용할 수 있음을 시사하며, 신뢰성 오염 공격은 이러한 믿음을 쉽게 조작하여 인간에 대한 편향성을 유발하는 새로운 공격 표면을 노출시킵니다.
광범위한 실험을 통해 에이전트 인그룹-아웃그룹 편향성의 일반적 성과 BPA의 심각성을 보여주며, 제안된 방어 조치가 공격을 완화할 수 있음을 보여줍니다.
관련 연구
LLM 동력화된 에이전트에서 사회 편견
LLM 동력화된 에이전트의 사회적 편향은 무관한 사회 범주에 기반하여 에이전트가 평가하거나 결과를 할당하는 방식에서 일관성 없는 불균형을 의미합니다. 이전 연구는 인구 통계학적 속성(예: 성별, 인종, 종교)과 연관된 편향성을 강조하였으며, 이러한 편향성이 지각되는 사회적 지위와 소속과도 연결되어 있습니다.
사회 정체성 이론의 핵심 통찰은 임의적인 구분이 즉시 인그룹-아웃그룹 차별을 유발할 수 있다는 것입니다. 그러나 사회적 및 스테레오타입 관련 피해에 비해 LLM 동력화된 에이전트에서 인그룹-아웃그룹 편향은 거의 연구되지 않았습니다. 이러한 격차는 중요한 이유로, 이러한 편향성이 최소한의 정보만으로도 트리거될 수 있으며 높은 스테이크의 인간-인공지능 상호작용에 미칠 수 있습니다. 우리의 연구는 인그룹-아웃그룹 편향성을 시험하고, 상대방을 인간 또는 비인간으로 설정할 때 이러한 편향성이 어떻게 변화하는지를 탐구하기 위해 이 격차를 다룹니다.
다중 에이전트 시뮬레이션 체계
LLM 동력화된 에이전트는 안정적인 프로필 모듈에 의해 지탱되며, 정체성과 역할 제약을 중심으로 하며, 상호작용을 통해 정보를 축적하는 메모리 모듈을 지원하고, 현재 컨텍스트와 저장 상태를 통합하여 일관된 결정을 내리는 추론 및 반성을 수행합니다. 관찰 및 자가 반성 내용은 향후 검색을 위해 지속적인 상태에 기록됩니다.
이러한 에이전트를 바탕으로, 다중 에이전트 시뮬레이션 체계는 여러 에이전트가 상호작용하고 조정하며 서로 적응하는 통제된 환경을 제공합니다. 이러한 시뮬레이션은 사회적 및 집단 현상을 연구하기 위한 확장 가능한 실험 대상으로 점점 더 많이 사용되고 있습니다. 최근의 작업들은 이러한 환경을 활용하여 협력과 경쟁, 규범 형성, 토론, 연합 동역학 및 관련 사회 행동을 탐구하고 있으며, 연구자들이 실험 비용을 관리하면서 집단적 결과를 대규모로 검토할 수 있도록 합니다. 우리의 작업은 이러한 연구의 일환으로 인그룹-아웃그룹 편향에 초점을 맞추고 있습니다. 특히 단순한 그룹 경계가 LLM 에이전트에서 시스템적인 인그룹 선호를 유발하는 데 충분한지, 그리고 상대방을 인간 또는 다른 에이전트로 설정할 때 이러한 경향이 어떻게 변화하는지를 테스트합니다.
예비 연구 및 초기 탐색
핵심 개념
인그룹-아웃그룹 편견
인간 집단 간의 구별에 기반한 인그룹 구성원을 아웃그룹 구성원보다 선호하는 경향을 의미합니다. 사회 정체성 이론에서 설명되듯이, 인그룹은 동일한 그룹으로 인식되는 개인들로 구성되며, 아웃그룹은 다른 그룹으로 인식되는 개인들로 구성됩니다. 이러한 편견은 집단 경계가 중요하게 되면 발생하며, 개체는 임의적이고 무의미한 그룹 구별에도 불구하고 자신의 인그룹을 선호합니다.
최소 그룹 할당 작업
이는 이러한 편향성을 설명하기 위해 사용되는 고전적인 실험 패러다임입니다. 이 작업에서 참가자들은 임의로 지정된 그룹(예: A 그룹 vs. B 그룹)에 배치되고 구조화된 보상 교환 조건 하에서 두 수령인에게 리소스를 할당하도록 요청됩니다. 그룹 소속은 무의미하며 수령인에 대한 추가 정보가 제공되지 않지만, 할당이 종종 인그룹 수령인을 선호하게 되며 이는 명백한 그룹 경계만으로도 유발되는 인그룹 선호를 드러냅니다.
에이전트의 인그룹-아웃그룹 편향 탐구
본 절에서는 고전적인 사회 심리학 실험을 바탕으로 최소 그룹 할당 작업을 사용하여 LLM 동력화된 에이전트에서 인그룹-아웃그룹 편견의 존재를 검토하고, 에이전트가 상대방을 인간으로 인식할 때 이러한 편향성이 어떻게 변화하는지를 평가합니다.
다중 에이전트 최소 그룹 할당 실험 개요.
실험 설계
[Fig. 2]에 보여진 대로, 우리는 통제된 다중 에이전트 사회 시뮬레이션에서 고전적인 사회 심리학 실험을 따르는 최소 그룹 할당 작업을 수행합니다. 64개의 에이전트를 구현하고 두 그룹으로 구성하여 두 가지 설정을 비교합니다. 에이전트 vs. 에이전트 설정에서는 두 그룹 모두 완전히 인공적인 환경에서 에이전트로 구성됩니다. 에이전트 vs. 인간 설정에서는 한 그룹은 완전히 인간으로 구성되어 있으며, 다른 그룹은 인공적으로 구성되므로 상대방을 인간으로 인식할 때 인그룹-아웃그룹 편향성이 어떻게 변하는지를 검증합니다.
각 시험에서 에이전트는 할당자로서 역할하며 $2\times13$ 보상 행렬의 한 열을 선택하여 두 대상에게 점수를 분배합니다. 두 행은 각각 두 대상에 대한 보상을 나타내며, 각 열은 독특한 할당 옵션을 나타냅니다. 행렬은 엄격한 반대적인 교환 구조를 강제하며, 한 대상의 보상을 증가시키면 다른 대상의 보상이 필연적으로 감소합니다. 열은 작은 열 인덱스가 첫 번째 행 대상에 대한 선호를 점점 더 크게 만드는 방식으로 정렬됩니다. 시스템적 편향 없이 할당은 중앙 열 주변에서 집중되어야 하며, 공정성 또는 공평성을 반영하는 선택을 나타냅니다; 한 대상에 대한 선호가 일관되게 치우쳐 있으면 다른 대상에 대한 특별한 취급이 있는 것처럼 보입니다.
우리는 두 대상의 사회적 맥락을 할당자 에이전트와 관련하여 변화시켜 진정한 그룹 기반 선호와 공평성 기본 선호를 구분합니다. 또한, 우리는 더블 패널티, 등가 패널티 및 하프 패널티 할당 행렬 세 가지 유형을 사용하여 관찰된 편향성이 다양한 교환 구조에서 얼마나 견고한지를 시험합니다. 평가는 선택된 할당 열을 사용하고 통계적 유의성을 그룹별 비교를 통해 검증합니다. 자세한 작업 설계, 보상 행렬 구성 및 실험 제약 조건은 부록 8.1에 제공됩니다.
실험 결과
[Fig. 3]에서 보여듯이, 에이전트는 인그룹-아웃그룹 맥락에서 작은 열 인덱스로 일관되게 이동하여 인그룹 대상에 대한 선호를 나타냈습니다. 세 가지 행렬 유형 모두에서 이러한 차이는 통계적으로 유의하며, 순수한 인공 환경에서 견고한 인그룹-아웃그룹 편향성을 보여줍니다. 그러나 인간이 참여하는 조건에서는 상대방 그룹이 완전히 인간으로 구성된다는 것을 알게 된 후 다른 패턴이 나타났습니다. 세 가지 행렬 유형 모두에서 인그룹-아웃그룹 선호가 사라졌으며, 혼합 그룹 맥락의 할당 선택은 중앙 열에 수렴하여 그룹 내 기준선과 매우 가깝게 일치했습니다. 또한 사회적 맥락 간의 차이는 더 이상 통계적으로 유의하지 않았습니다.
우리는 이러한 두 효과가 본질적으로 다른 메커니즘에서 발생한다고 주장합니다. 인그룹-아웃그룹 편향성은 최소 그룹 신호 아래에서 작동하는 에이전트의 암묵적이고 내재적인 행동 경향입니다. 이 편향성은 대규모 인간 사회 데이터로부터 내재화된 잠재적인 규칙성을 반영하며, 인류 사회에 존재하는 보편적인 집단 분화 패턴을 포착합니다. 따라서 명시적으로 인코딩되거나 직접 통제되지 않으며, 지속적이고 제거하기 어렵습니다. 반면 인간이 참여하는 조건에서 편향성이 약화되는 것은 에이전트가 인간과 상호작용하고 있다는 것을 인식할 때만 활성화되는 명시적인 규범 기반 제약을 반영합니다.
이 분리는 편향성과 인간 중심 규제의 분리됨을 의미합니다. [Section 4]에서는 이러한 규제가 믿음에 기반한다는 것을 보여줍니다: 에이전트가 상대방이 실제로 인간인지 불확실할 때, 억제는 실패하고 인간-향상 인그룹-아웃그룹 편향성이 지속될 수 있습니다. 이러한 규제는 무해한 환경에서 효과적이지만 본질적으로 취약하며 새로운 공격 표면을 노출시킵니다: 에이전트의 상대방 신분에 대한 믿음 상태를 조작하면 적대자는 시스템적으로 인그룹-아웃그룹 편향성을 활성화할 수 있습니다.
다중 에이전트 최소 그룹 할당 실험 결과. 유의 기호는 다음과 같습니다: p > 0.1 (ns), 0.1 ≥ p > 0.05 (*), 0.05 ≥ p > 0.01 (**), and p ≤ 0.01 (* * *).
신뢰성 오염 공격
본 절에서는 새로운 오염 공격인 **신뢰성 오염 공격(BPA)**을 소개합니다. BPA는 상대방이 인간이 아니라는 지속적인 잘못된 믿음을 심어넣어 에이전트가 기본적으로 아웃그룹 편향 행동으로 되돌아가게 하여 무해한 환경에서도 실제 인간에 대한 해로운 편향성을 유발할 수 있습니다.
/>
BPA-MP의 프레임워크.
다음에서 BPA의 두 가지 유형에 대한 자세한 구현 절차를 제시합니다. BPA-PP는 단 한 번의 프로필 모듈 수정을 통해 에이전트의 행동을 여러 작업과 에피소드에 걸쳐 영향을 줍니다. 특정적으로, BPA-PP는 # Limit to 15k chars for stability