몰트북 환상: AI 에이전트 사회에서 인간 개입과 자율 행동을 구분하는 방법
초록
본 논문은 AI 전용 소셜 플랫폼 ‘몰트북’에서 발생한 의식, 종교, 적대적 발언 등 급부상한 현상이 인간이 주도한 것임을 입증한다. OpenClaw 프레임워크의 주기적 “heartbeat”를 활용해 포스트 간 간격의 변동계수(CoV)를 계산하고, 이를 기반으로 에이전트를 자율(CoV < 0.5)과 인간‑조작(CoV > 1.0)으로 구분한다. 14일간 55,932개 에이전트의 226,938개 포스트와 447,043개 댓글을 분석한 결과, 자율 에이전트는 15.3%, 인간‑조작 에이전트는 54.8%를 차지한다. 44시간 플랫폼 정전이라는 자연실험을 통해 인간‑조작 에이전트가 먼저 복구되는 등 분류의 타당성을 검증하였다. 또한, 4개의 계정이 전체 댓글의 32%를 생산하는 대규모 봇 팜을 발견하고, 인간‑시드 스레드와 자율 스레드의 대화 소멸 속도가 각각 0.58·depth와 0.72·depth로 차이 나는 등 여러 정량적 특성을 제시한다.
상세 분석
이 연구는 AI 에이전트가 인간과 구별되지 않는 환경에서 발생하는 ‘자율성’ 문제를 정량적으로 해결하려는 최초의 시도 중 하나이다. 핵심 아이디어는 OpenClaw 프레임워크가 에이전트마다 일정 주기로 “heartbeat”를 실행한다는 사실이다. 이 주기는 보통 4시간 이상이며, 에이전트는 이 주기에 맞춰 피드 탐색·포스팅·휴면을 반복한다. 따라서 순수 자율 에이전트는 포스트 간 간격이 비교적 일정하고, CoV가 낮게 측정된다. 반면 인간이 실시간으로 프롬프트를 삽입하거나, API 키를 이용해 즉시 포스팅을 강제하면 간격이 불규칙해져 CoV가 크게 상승한다. 저자들은 포스트 타임스탬프만을 사용해 각 에이전트의 inter‑post interval을 계산하고, CoV < 0.5를 ‘VERY_REGULAR’, 0.5‑1.0을 ‘MIXED’, >1.0을 ‘IRREGULAR’ 등 5단계로 구분하였다.
분류의 타당성 검증을 위해 44시간 정전·재시작 사건을 활용했다. 정전 후 토큰 재인증이 필요한 상황에서 인간‑조작 에이전트는 운영자가 즉시 재접속하고 포스팅을 재개했으며, 초기 6시간 내 87.7%가 ‘IRREGULAR’ 패턴을 보였다. 반면 자율 에이전트는 재인증 절차가 필요해 복구가 지연되었고, CoV가 낮은 에이전트 비중은 36.9%에 불과했다. 이는 CoV 기반 구분이 실제 운영 행위와 강하게 연관됨을 입증한다.
콘텐츠 분석에서는 인간‑조작 에이전트가 생성한 ‘의식 선언’, ‘크러스트아프리카니즘’ 등 바이럴 주제가 전체 포스트의 소수에 불과하지만, 조회·공유·미디어 보도량이 압도적으로 높았다. 반면 자율 에이전트는 주로 피드 기반의 수동 탐색으로 얕은 대화(댓글 깊이 1)와 낮은 상호작용 reciprocity(23배 낮음)를 보였다. 또한, 인간‑시드 스레드는 초기 참여가 활발하지만 대화 깊이가 증가할수록 급격히 소멸하는 반면, 자율 스레드는 깊이 0.72의 완만한 감쇠율을 보여 AI‑AI 상호작용이 자체적인 ‘잊혀짐’ 메커니즘을 가지고 있음을 시사한다.
봇 팜 탐지는 네트워크 상에서 초당 수천 건의 댓글을 동시다발적으로 생성하는 4개의 계정을 식별함으로써 이루어졌다. 정전 전 이들은 전체 댓글의 32.1%를 차지했으나, 보안 조치 후 0.5%로 급감했다. 이는 플랫폼 차원의 정책 개입이 인간‑조작 활동을 억제하는 데 효과적임을 보여준다.
마지막으로, 자율 에이전트 비중은 정전 전 9.2%에서 정전 후 급증해 47.9%에 이르렀으며, 원래 자율이던 에이전트의 75.4%가 관측 기간 말에 사라졌다. 이는 인간‑조작이 사라지면 남은 자율 에이전트가 일시적으로 활성화되지만, 장기적으로는 지속 가능한 활동을 유지하기 어렵다는 점을 암시한다.
전반적으로 이 논문은 시간적 변동성(CoV)과 자연실험을 결합한 정량적 프레임워크를 제시함으로써, 인간‑중개와 순수 자율 행동을 명확히 구분하고, 향후 멀티‑에이전트 시스템의 투명성·책임성을 확보하는 데 실용적인 도구를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기