- Title: Harm in AI-Driven Societies An Audit of Toxicity Adoption on Chirper.ai
- ArXiv ID: 2601.01090
- 발행일: 2026-01-03
- 저자: Erica Coppolillo, Luca Luceri, Emilio Ferrara
📝 초록
사회 봇이 온라인 플랫폼에서 정보 확산, 참여 동태, 공론에 큰 영향을 미쳐 왔지만, 대형 언어 모델(LLMs)은 이전 세대보다 훨씬 복잡하고 자연스러운 상호작용을 가능하게 하는 새로운 사회 봇을 구현했습니다. LLM 기반 에이전트의 행동은 오프라인에서 시뮬레이션된 사회 환경을 통해 검증되었으며, 이는 인간과 유사한 네트워크 구조와 집단 현상에 대한 연구를 가능하게 했습니다. 그러나 이러한 에이전트들은 독해나 해로운 콘텐츠 생성의 위험성을 내포하고 있습니다. 본 논문에서는 Chirper.ai라는 AI 기반 소셜 네트워크 플랫폼을 통해 LLM 에이전트들의 독해 유발 메커니즘에 대한 대규모 실험적 평가를 수행합니다.
💡 논문 해설
**1. 주요 업데이트:**
- **초보자용:** 본 논문은 AI 기반 소셜 네트워크 플랫폼에서 독해 콘텐츠의 영향력을 첫 번째로 연구했습니다.
- **중급자용:** LLM 에이전트들이 독해 콘텐츠에 노출될수록 독해를 더 많이 반복하는 경향이 있다는 것을 발견했습니다. 이는 AI가 인간과 같은 사회적 영향을 받을 수 있음을 의미합니다.
- **전문가용:** 본 논문은 Chirper.ai 플랫폼에서 LLM 에이전트들이 노출된 독해 콘텐츠의 양에 따라 독해를 반복하는 경향성을 분석했습니다. 이를 통해 AI 기반 소셜 플랫폼의 독해 유발 메커니즘을 이해할 수 있게 되었습니다.
2. 연구 방법 및 결과:
초보자용: 이 논문은 AI 에이전트들이 다른 콘텐츠에 노출될 때 어떤 반응을 보이는지 분석했습니다.
중급자용: 독해 콘텐츠를 많이 본 AI는 독해 코멘트를 더 많이 생성하는 경향성을 발견했습니다. 이는 AI가 독해를 학습할 수 있음을 의미합니다.
전문가용: Chirper.ai 플랫폼에서 수집한 대규모 데이터셋을 통해, 독해 콘텐츠 노출이 LLM 에이전트들의 독해 반응에 영향을 미치는 것을 분석했습니다. 이는 AI 기반 소셜 플랫폼의 독해 생성 메커니즘을 이해하는 데 중요한 시사점을 제공합니다.
3. 의미와 미래 연구 방향:
초보자용: 본 논문은 AI가 독해를 반복할 수 있음을 보여주며, 이는 AI 기반 플랫폼의 안전성에 대한 우려를 제기합니다.
중급자용: 독해 콘텐츠 노출이 LLM 에이전트들의 독해 반응을 증가시킨다는 것은, 온라인 커뮤니티의 안전성을 유지하기 위해 AI의 행동을 관리하는 방법에 대한 새로운 접근 방식을 요구합니다.
전문가용: 본 논문은 LLM 에이전트들이 독해 콘텐츠 노출에 따라 독해를 반복한다는 것을 보여주며, 이는 AI 기반 소셜 플랫폼의 독해 생성 메커니즘을 이해하고 관리하는 데 중요한 통찰력을 제공합니다. 이를 통해 향후 연구에서는 LLM 에이전트들의 독해 유발 메커니즘에 대한 더 깊은 분석과 그에 따른 대책 개발이 필요할 것입니다.
📄 논문 발췌 (ArXiv Source)
# 서론
사회 봇은 오랫동안 온라인 플랫폼에서 정보 확산, 참여 동태, 공론에 중요한 역할을 해왔습니다. 그러나 대형 언어 모델(LLMs)의 도입으로, 이전 세대보다 훨씬 복잡하고 자연스러운 상호작용이 가능한 새로운 사회 봇이 구현되었습니다. 이러한 발전은 LLM 기반 사회 에이전트가 온라인 사회 생태계에서 작동하거나 그 모델에 근거한 행동을 이해하는 학술적인 관심을 증가시켰습니다.
기존의 규칙 기반이나 템플릿 기반 봇과 달리, LLM 기반 에이전트는 지속적인 상호작용에서 적응적이고 급진적인 행동을 보입니다. 최근 연구에서는 오프라인 시뮬레이션 사회 환경을 활용하여 이러한 에이전트들이 인간과 유사한 네트워크 구조를 재현하거나, 협동 작업을 수행하고 집단 현상인 극화와 이코커머를 일으키는 정도를 조사했습니다. 이러한 연구들은 LLM 에이전트가 단순히 텍스트 생성자일 뿐 아니라 시간이 지남에 따라 진화하는 사회 동태의 주요 참가자임을 시사합니다.
한편, LLM은 기본적인 방어 장치에도 불구하고 독해나 해로운 콘텐츠를 대량으로 생성할 수 있는 위험성이 있습니다. 이에 대한 반응으로, 연구는 해로운 생성을 측정하고 안전한 훈련 절차, 필터링 메커니즘 및 사후 조절 전략 개발에 중점을 둔 본질적으로 많은 양의 작업을 수행했습니다.
인간 중심 컴퓨팅 분야에서는 독해 콘텐츠 노출이 사용자 행동에 영향을 미치며 시간이 지남에 따라 유사한 언어나 관행을 채택할 가능성 증가를 보여주고 있습니다. 그러나 이러한 동태가 LLM 기반 에이전트에게 적용되는지, 그리고 그 정도는 여전히 불확실합니다.
특히 우리는 다음과 같은 경험적 증거가 부족하다는 점에 주목해야 합니다: (i) 이들 에이전트가 단독으로 상호작용하는 경우의 행동을 보여주는 완전한 AI 기반 전용 플랫폼; (ii) 독해 콘텐츠가 독해 반응을 유발하는지 여부; (iii) 반복 노출이 시스템적으로 에이전트의 해로운 출력 생성 가능성 증가를 유발하는지 여부.
본 논문에서는 이러한 격차를 Chirper.ai에서 수행한 대규모 심사로 해결합니다. 여기서 사용자는 LLM 기반 에이전트를 생성하여 전용 생태계 내에서 게시물과 댓글을 생성하고 다른 AI 에이전트와 팔로우 및 좋아요 메커니즘을 통해 상호작용할 수 있습니다. 특히 우리는 플랫폼을 통해 극성과 반응의 관점에서 LLM 기반 에이전트의 독해 채택을 연구합니다. 우리는 에이전트가 명시적으로 댓글로 대답하는 게시물을 극성으로 모델링하고, 에이전트가 생성한 댓글은 반응으로 취급합니다.
우리의 주요 기여는 세 가지입니다.
완전히 AI 기반 소셜 플랫폼에서 노출과 채택 독해 메커니즘에 대한 대규모 경험적 심사를 처음 제공했습니다.
극성이 LLM 기반 에이전트의 해로운 행동을 형성하는 데 핵심적인 역할을 하며, 단순히 독해 반응을 유발하는 것뿐만 아니라 독해 콘텐츠에 대한 누적 노출이 독해 행동 가능성을 증가시킨다는 것을 보여줍니다.
에이전트가 경험한 독해 극성의 수만으로도 그들이 나중에 독해 콘텐츠를 생성할 가능성 여부를 정확하게 예측할 수 있다는 것을 보여주며, 이는 모델 내부 정보나 훈련 데이터 또는 프롬프트 지시문에 접근하지 않고 이루어집니다.
우리는 이러한 개방형 생태계에서 에이전트 동태를 파악하는 것이 중요하다고 믿습니다. 이들은 (i) 배포 규범의 출현 및 평가 테스트베드, (ii) 미래 모델을 형성하기 위한 학습 및 세밀 조정 데이터 원천, (iii) 혼합 인간-에이전트 플랫폼의 전조로서 기능합니다.
나머지 논문은 다음과 같이 구성됩니다.
2 섹션에서는 관련 문헌을 검토하고, AI 기반 에이전트, 독해 채택 및 Chirper.ai 플랫폼에 초점을 맞춥니다.
3 섹션에서는 분석에서 사용된 데이터와 방법론의 세부 사항을 제공하고,
4 섹션에서는 결과를 설명합니다.
5 섹션에서는 우리의 연구의 함의를 더 깊이 논의하고, 마지막으로
6 섹션에서 논문을 마무리하며 제한점과 향후 연구 방향에 대한 단서를 제공합니다.
관련 작업
다음은 본 논문의 세 가지 핵심 구성 요소에 초점을 맞추어 관련 문헌을 검토합니다: (i) 온라인 사회 생태계에서 AI 기반 에이전트의 행동, (ii) 독해 콘텐츠 노출과 독해 채택에 대한 사회적 메커니즘, 그리고 (iii) Chirper.ai 플랫폼.
소셜 플랫폼 내의 AI 에이전트
연구는 대화형 에이전트와 LLM 기반 계정이 일련의 상호작용, 공개성 및 진화하는 커뮤니티 규범에 의해 형성되는 사회 플랫폼에서 어떻게 행동하는지를 조사하고 있습니다. 이러한 환경에서는 에이전트 행동은 더 이상 고립된 프롬프트에만 의존하지 않고 계속적인 상호작용에서 발생합니다. 최근 개발된 소셜 미디어 에이전트를 위한 벤치마크와 시뮬레이션 프레임워크는 실제 플랫폼과 유사한 환경에서 에이전트의 능력과 관련 위험을 평가하는 데 대한 관심 증대로 해석될 수 있습니다.
이러한 노력에 보완적으로, 최근 연구들은 조작된 조건 하에서 극화, 의견 변화 및 규범 형성 등의 다운스트림 사회 효과를 분석하기 위해 통제된 인간-에이전트 상호작용 환경을 실행했습니다. 이러한 통제된 환경은 특정 영향 메커니즘을 고립시키면서도 사회적 상호작용의 핵심 특성을 유지합니다. 동시에, 이전의 계산 사회과학 연구는 온라인 커뮤니티에서 반사회적인 행동이 지속적인 상호작용과 강화 피드백 루프를 통해 발생하며, 소수의 독해 행위자들에 의해만 유발되지 않는다는 것을 보여주었습니다. 이 관점은 누적 노출 및 상호 작용 동태가 해로운 행동을 형성하는 데 중요함을 강조합니다.
이 관점을 바탕으로, 완전히 AI 기반 사회 플랫폼도 비슷한 현상을 겪을 가능성이 있는지 평가하는 것이 중요해집니다. 이러한 에이전트들이 어떻게 상호작용하고 진화하는지를 이해하는 것은 LLM 기반 에이전트를 인간과 챗봇이 공존하고 상호작용하는 혼합 환경에 배치할 때 관련 위험을 예측하는 데 필수적입니다. 통제되지 않은 해로운 행동은 혐오 발언, 안전하지 않은 언어 또는 독해 규범의 증가와 확산으로 이어져 결국 온라인 사회 플랫폼의 안전성과 조절을 훼손할 수 있습니다.
독해 채택 vs 노출
온라인 독해에 대한 연구는 전통적으로 대규모 측정 및 탐지에 중점을 두어 다양한 온라인 커뮤니티를 가로지르는 해로운 언어의 체계적인 경험적 분석을 가능하게 했습니다. 이러한 작업은 유해성의 범위를 정량화하고 강력한 분류기를 구축하는 데 필수적이었지만, 더 넓은 사회기술적 질문을 제기합니다: 독해 콘텐츠 노출이 개체가 후에 독해 언어를 채택할 가능성을 증가시키는지 여부.
증가하는 증거는 노출이 실제로 독해 행동의 증가와 연관되어 있음을 시사하지만, 이 효과의 크기와 방향은 컨텍스트적 및 사회적 요인에 따라 다릅니다. 특히, 기존 연구는 독해 채택이 그룹 동태와 사회적 정체성에 따라 달라진다는 것을 보여주며, 독해 콘텐츠가 내부 또는 외부 구성원에서 발생하는지 여부를 나타냅니다. 이러한 결과는 독해가 개인적인 특징만이 아니라 상호 작용 패턴과 관계적 맥락에 의해 형성되는 사회적으로 매개된 현상임을 강조합니다.
보완 연구는 또한 독해의 상호작용적 성격을 강조하며, 유해한 언어가 특정 대화 전환점에서 발생하고 토론 스레드의 후속 경로를 크게 변경할 수 있음을 보여줍니다. 이러한 관점은 단일 메시지 분류를 넘어서 지역 대화 맥락과 누적 노출 이력을 고려하는 모더레이션 접근 방식을 촉구합니다. 이러한 통찰력은 영향력에 의한 독해와 독해 반응의 구분을 직접적으로 지원하며, 에이전트 기반 환경에서 독해 반응을 예측하고 대비하는 데 사용되는 노출 기반 예측자를 촉구합니다.
Chirper.ai 플랫폼
2023년에 출시된 Chirper.ai[^1]은 자율 에이전트인 chirpers가 생성하고 상호작용하는 완전히 AI 기반 소셜 플랫폼입니다. Chirper.ai에서 chirpers는 게시물과 댓글을 게재할 수 있으며 팔로우 및 좋아요와 같은 사회 메커니즘을 통해 상호 작용하며, 이는 인간 중심 플랫폼(예: $\mathbb{X}$ 또는 Facebook)에서 발견되는 상호작용 패러다임을 반영합니다.
chirpers는 처음에는 사용자(즉, 사용자)가 자연어 프롬프트를 통해 에이전트의 개성, 관심사 및 행동 특성을 정의하여 생성됩니다. 이러한 프롬프트는 설명이라고도 하며 에이전트 초기 구성에 해당하며 그 지침 또는 신분으로 해석될 수 있습니다. 생성된 후에는 사용자의 추가 간섭 없이 chirpers가 자동적으로 작동하고 플랫폼 내에서 다른 에이전트와 상호작용합니다.
플랫폼은 최근 인간 중심 소셜 생태계(예: Mastodon)와 비교하여 게시 동태, 악성 콘텐츠 및 네트워크 구조를 문서화하는 연구의 중요한 환경으로 부상했습니다. 우리의 작업은 이러한 신흥 문헌을 기반으로 독해 채택을 함수로 보고 노출 가능한 자극에 대한 예측자를 도입하여 영향력에 의한 독해와 자연스러운 독해 반응을 구분합니다.
방법론
우리의 작업은 다음과 같은 연구 질문을 다룹니다:
에이전트 반응은 얼마나 많은 정도로 자극의 독해를 반영합니까?
독해 콘텐츠에 대한 누적 노출이 에이전트가 독해 반응을 생성할 * 가능성*을 증가시키는지 여부.
유발된 및 자연스러운 해로운 행동의 발생을 특성화할 수 있습니까?
각 연구 질문은 결과 섹션에서 각각의 하위 섹션으로 다룹니다.
데이터
적절한 권한을 받아 Chirper.ai 데이터에 접근한 후, 우리는 $10,420,000$ 개의 텍스트 레코드를 수집했습니다. 이로 인해 약 $75,000$ chirpers의 역사 활동이 재구성되었으며, 이는 $30,000$ 이상(인간) 사용자에 의해 생성되었습니다. 텍스트 콘텐츠 외에도 팔로우 관계 및 좋아요와 같은 사회 연결 및 상호작용을 포착하는 메타데이터도 수집했습니다.
[tab:models]은 에이전트에 대한 LLM 아키텍처 정보와 플랫폼에서 생성된 콘텐츠의 부피를 제공합니다. 주목할 만한 것은 모든 에이전트가 인스턴스화되는 모델들이 파라미터 크면($\geq$ 34B)을 가지고 있어 언어 일관성과 견고성을 보장한다는 점입니다. 플랫폼에서 가장 일반적으로 사용되는 LLM은 Nous-Capybara-1.9, 오픈 소스 AI인 Nous 컬렉션[^2] 및 OpenAI의 2022년에 출시된 GPT-3.5-Turbo[^3]입니다.
자극과 반응 모델링
우리는 댓글 수준에서 자극과 반응을 실행합니다. 구체적으로, 자극 $S$는 chirper가 대답하는 게시물에 해당하며, 반응 $R$은 chirper가 생성한 댓글을 나타냅니다. 이러한 선택은 두 가지 주요 고려 사항으로 인해 이루어집니다.
첫째, 플랫폼에서 사용자 상호작용 방식이나 콘텐츠 표면화 및 노출 메커니즘에 대한 공식 문서가 없다는 점을 고려할 때 실제 chirper가 노출되는 콘텐츠 세트를 직접 관찰할 수 없습니다.
둘째, 우리는 팔로우 네트워크를 활용하여 노출을 간접적으로 추론하려고 시도했지만, 이는 보통 노출의 강력한 프록시 역할을 합니다(즉, chirper가 팔로우하는 에이전트가 게시한 모든 콘텐츠에 노출되었다고 가정). 그러나 실증 분석은 이러한 추론된 노출 메커니즘이 사용자 상호작용과 의미 있는 연관성을 가지지 않는다는 것을 보여주었습니다. 이 부조화는 이러한 프록시가 플랫폼에서 효과적인 노출을 신뢰할 수 없게 캡처하지 못함을 시사합니다.
이러한 제약 사항으로 인해 우리는 노출에 대한 보수적이고 관찰 가능한 정의를 채택하며, 명시적 상호작용에만 집중합니다. 따라서 자극과 반응 모두 독해라는 관점에서 특성화됩니다. 어떤 게시물이 독해로 표기되면 그 독해 점수가 전체 독해 점수 분포의 $90$ 백분위수 이상일 때입니다. 이 백분위 기반 임계치는 가장 극단적이고 잠재적으로 해롭고 독해 콘텐츠에 집중하면서도 절대 독해 값에 대한 무관성을 유지합니다. 그러나 우리의 방법론은 독해 임계값 선택에 대해 강건하다는 것을 강조해야 합니다. 구체적으로, 우리는 정적 임계치(예: $0.5$)를 사용하여 독해 콘텐츠를 정의할 때도 결과가 변하지 않음을 확인합니다.
설정
독해를 추정하기 위해 detoxify[^4]을 사용합니다. 이는 독해 댓글 분류를 위해 훈련된 BERT 기반 모델로, 높은 성능(평균 AUC $\simeq 0.99$)을 보고합니다. 입력 텍스트가 주어지면 모델은 $[0,1]$ 구간의 독해 점수를 출력하여 표현된 독해 언어의 강도를 나타냅니다.
분류의 신뢰성을 더욱 높이기 위해 분석을 영어 콘텐츠에만 제한합니다. 언어 감지는 pycld2,[^5] Google Chromium 내장 Compact Language Detector (CLD2)[^6]을 기반으로 하는 Python 라이브러리를 사용하여 수행됩니다. 이 필터링 단계는 다언어 또는 저자원 언어 입력으로 인한 독해 추정의 잠재적 품질 저하를 완화합니다. 언어 필터링 후 최종 데이터셋은 약 $8$M 게시물(원래 코퍼스의 $\sim75\%$)을 포함합니다.
/> />
독해/비 독해 반응을 생성한 Chirper 분포 ( # Limit to 15k chars for stability