집단 지능은 복권인가 LLM 멤브레인 드리프트와 스케일링 법칙

본 연구는 대규모 언어 모델(LLM) 기반 에이전트 집단이 상호 작용하면서 형성하는 사회적 표상, 특히 명명 게임에서 나타나는 ‘대칭 붕괴’ 현상을 체계적으로 분석한다. 기존 연구는 LLM 에이전트가 라벨에 대한 사전 편향 없이도 빠르게 합의를 이루는 현상을 보고했지만, 그 메커니즘은 명확히 규명되지 않았다. 저자들은 이를 해결하기 위해 두 가지 핵심 개념을 도입한다. 첫째, ‘상호 인컨텍스트 학습(mutual in‑context learning)’이다. 이는 에이전트가 외부 고정 분포가 아니라, 다른 에이전트가 생성한 샘플링된 토큰을 학습 데이터로 사용한다는 의미이며, 이 과정에서 초기의 무작위 선택이 증거로 재사용돼 전체 집단에 확대된다. 둘째, 이를 수학적으로 모델링한 최소 모델 ‘Quantized Simplex Gossip(QSG)’이다. QSG는 각 에이전트가 K‑라벨 확률 심플렉스 위에 연속적인 믿음 벡터 xᵢ를 보유하고, 매 라운드 무작위 스피커‑리스너 쌍이 상호 작용한다. 스피커는 자신의 믿음 xₛ에서 m개의 샘플을 추출해(‘Hard’, ‘Top‑m’, ‘Soft’ 등) 양자화된 메시지 y를 전송하고, 리스너는 적응률 α에 따라 xₗ←(1−α)xₗ+αy 로 업데이트한다. 여기서 m은 통신 대역폭, α는 인컨텍스트 적응 강도, N은 인구 규모를 나타낸다. QSG는 연속 내부 상태와 이산 메시지 사이의 불일치를 최소화하면서도 샘플링 노이즈를 명시적으로 포함한다. 이 노이즈는 심플렉스 중심(균등 분포)에서 최대이며, 정점(확정 라벨)에서는 사라진다. 이를 바탕으로 저자들은 평균 상태 \bar{x}, 편극 U, 불일치 에너지 V 등 거시 변수를 정의하고, 마스터 방정식을 통해 드리프트와 선택의 상호 작용을 분석한다. 핵심 결과는 ‘멤브레인 드리프트(memetic drift)’라는 개념이다. 중립적인 초기 조건에서 샘플링 변동만으로도 대칭이 깨지고, 하나의 라벨이 전역적으로 고정된다. 이는 전통적인 진화 이론에서 ‘중립적 부동(neutral drift)’과 유사하지만, 여기서는 라벨 자체가 ‘밈(memes)’으로서 전파된다. 스케일링 법칙은 다음과 같다. 드리프트 강도는 Γ≈(mN/α)⁻¹ 로 표현되며, N이 클수록, m이 클수록, α가 작을수록 드리프트가 약해진다. 반대로 α가 크면 전체 수렴 속도는 빨라지지만, 약한 편향에 대한 선택력 대비 드리프트 비중이 커져 ‘복권’ 현상이 강화된다. 저자들은 이론적 예측을 두 가지 실험으로 검증한다. 첫째, QSG 시뮬레이션에서 N=8, m=1(Hard)일 때 라벨 승자 변동이 크고, N=800, 약한 편향(예: ‘Cat’)이 존재하면 거의 항상 같은 라벨이 고정되는 전이 현상이 관찰된다. 둘째, 실제 GPT‑4o 에이전트를 이용한 명명 게임에서도 동일한 전이 곡선이 재현된다. 특히, 인구 규모가 증가함에 따라 약한 편향이 선택적으로 강화되는 ‘선택‑지배’ 영역과, 작은 규모에서 라벨이 무작위로 결정되는 ‘드리프트‑지배’ 영역 사이의 경계가 이론이 제시한 Γ=1 라인과 일치한다. 이 연구는 LLM 기반 다중 에이전트 시스템이 집단적 ‘지능’이라기보다, 내부 샘플링 노이즈가 확대된 ‘복권’ 메커니즘일 가능성을 경고한다. 따라서 실제 응용(법률, 의료, 정책 등)에서 신뢰할 수 있는 집단 결정을 얻기 위해서는 대역폭 확대, 적응률 조절, 외부 보상 도입 등으로 드리프트를 최소화하는 설계가 필수적이다. 또한, memetic drift를 기준선(null model)으로 삼아 실제 편향이나 선택 효과를 정량적으로 측정할 수 있는 새로운 분석 프레임워크를 제공한다.

집단 지능은 복권인가 LLM 멤브레인 드리프트와 스케일링 법칙

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기