두 대형 언어모델의 상호작용이 초래하는 대화 수렴 현상

읽는 시간: 6 분
...

📝 원문 정보

  • Title: Convergence of Outputs When Two Large Language Models Interact in a Multi-Agentic Setup
  • ArXiv ID: 2512.06256
  • 발행일: 2025-12-06
  • 저자: Aniruddha Maiti, Satya Nimmagadda, Kartha Veerya Jammuladinne, Niladri Sengupta, Ananya Jana

📝 초록 (Abstract)

본 연구에서는 외부 입력 없이 두 대형 언어모델이 서로에게 응답을 주고받으며 다중 에이전트 환경에서 진행되는 대화를 관찰하였다. 짧은 시드 문장으로 시작하여 각 모델이 상대의 출력을 읽고 다음 발화를 생성하는 과정을 고정된 턴 수만큼 반복한다. 실험에 사용된 모델은 Mistral Nemo Base 2407과 Llama 2 13B hf이며, 대부분의 대화는 초기에는 일관성을 유지하지만 이후 반복 현상이 나타난다. 여러 실행에서 짧은 구절이 등장한 뒤 지속적으로 반복되는 것이 관찰되었고, 반복이 시작되면 두 모델 모두 새로운 방향을 제시하기보다 유사한 출력을 생성하는 경향을 보였다. 이는 동일하거나 유사한 텍스트가 반복되는 루프를 형성하며, 우리는 이를 ‘수렴(convergence)’ 현상이라고 명명한다. 모델이 크고 별도로 학습되었으며 프롬프트 지시가 없음에도 불구하고 이러한 현상이 발생한다. 대화가 초기 시드로부터 얼마나 멀어지는지, 그리고 진행에 따라 두 모델의 출력이 얼마나 유사해지는지를 측정하기 위해 어휘 기반 및 임베딩 기반 지표를 적용하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
이 논문은 최근 인공지능 연구에서 주목받고 있는 ‘멀티에이전트 언어 모델’ 시나리오를 실험적으로 탐구한다는 점에서 의의가 크다. 먼저 실험 설계는 매우 단순하면서도 핵심적인 질문을 던진다: 외부 인간 입력이 전혀 없는 상황에서 두 독립적인 대형 언어 모델이 서로를 ‘프롬프트’로 삼아 대화를 이어갈 때, 모델 내부의 확률적 생성 메커니즘이 어떻게 상호작용하는가? 이를 위해 연구진은 시드 문장을 한 줄로 제한하고, 각 턴마다 모델 A가 모델 B의 직전 출력을 입력으로 받아 새로운 텍스트를 생성하고, 반대도 동일하게 진행하는 ‘교차 피드백’ 방식을 채택했다. 이 과정은 인간이 개입하지 않으므로, 모델 자체가 만든 언어적 ‘에코 챔버’를 관찰할 수 있다.

사용된 두 모델은 각각 Mistral Nemo Base 2407(약 7 B 파라미터)과 Llama 2 13B hf(13 B 파라미터)로, 아키텍처와 학습 데이터가 다름에도 불구하고 유사한 현상을 보인다는 점이 흥미롭다. 초기 단계에서는 두 모델이 서로 다른 어휘와 문맥을 교환하며 대화가 진행되지만, 몇 번째 턴부터는 ‘짧은 구절’이 등장하고 이것이 점차 고정점처럼 작용한다. 이 고정점은 확률 분포 상에서 높은 확신을 가진 토큰 시퀀스로, 양쪽 모델이 동일하거나 매우 유사한 확률을 부여받게 되면서 반복이 시작된다. 즉, 모델이 자체 생성한 텍스트를 다시 입력받을 때, 그 텍스트가 이미 모델 내부의 ‘언어 규칙’에 부합하는 경우, 새로운 정보가 추가되지 않고 기존 패턴이 강화되는 ‘자기 강화 루프’가 형성된다.

정량적 분석에서는 두 가지 지표가 활용되었다. 첫째, 어휘적 거리(Lexical Drift)는 초기 시드와 각 턴의 출력 사이의 n‑gram 차이를 측정해 대화가 얼마나 멀어지는지를 파악한다. 둘째, 임베딩 기반 유사도(Embedding Similarity)는 문장 수준에서 의미적 변화를 캡처한다. 결과는 턴이 진행될수록 어휘적 거리는 감소하고, 두 모델 간 임베딩 유사도는 급격히 상승한다는 패턴을 보였다. 이는 ‘수렴’이 단순히 텍스트가 반복되는 현상을 넘어, 의미 공간에서도 동일한 점에 수렴한다는 것을 의미한다.

이러한 현상은 몇 가지 중요한 함의를 가진다. 첫째, 대형 언어 모델은 외부 피드백이 없을 때 자체적인 ‘안정된 상태’를 찾는 경향이 있다. 이는 인간 대화에서 관찰되는 ‘주제 고착’과 유사하지만, 인간은 의도적 전환을 통해 이를 회피한다는 점과 대비된다. 둘째, 서로 다른 모델이라도 학습 데이터와 목표 함수가 유사하면 동일한 확률적 고정점을 공유할 가능성이 높다. 이는 멀티에이전트 시스템 설계 시, 모델 간 다양성을 확보하기 위한 추가적인 메커니즘(예: 랜덤 노이즈 주입, 온도 조절, 외부 검증자) 도입이 필요함을 시사한다. 셋째, 현재의 평가 지표만으로는 ‘대화의 질’이나 ‘창의성’을 충분히 포착하기 어렵다. 반복이 발생하더라도 문법적으로는 올바른 문장을 생성하므로, 향후 연구에서는 ‘정보 신선도’나 ‘주제 전이’를 측정할 새로운 메트릭이 요구된다.

한계점으로는 실험이 두 모델, 고정된 시드, 제한된 턴 수(예: 20 턴)에서만 수행되었다는 점이다. 모델 규모, 온도 파라미터, 토큰 제한 등 변수를 다양화하면 다른 수렴 패턴이 나타날 가능성이 있다. 또한, 인간이 개입하는 ‘프롬프트 엔지니어링’이나 ‘대화 정책’ 없이 순수 모델 간 상호작용만을 다루었기 때문에, 실제 멀티에이전트 어플리케이션(예: 협상, 협업)에서의 동적 행동을 완전히 대변하지는 못한다.

향후 연구 방향은 다음과 같다. (1) 다양한 모델 아키텍처와 파라미터 규모를 포함한 광범위한 실험을 통해 수렴 현상의 일반성을 검증한다. (2) 온도, top‑k, nucleus sampling 등 샘플링 전략을 조절하여 반복을 억제하거나 의도적으로 유도하는 방법을 탐색한다. (3) 외부 ‘감시자’ 에이전트를 도입해 대화 흐름을 평가·조정함으로써 지속적인 정보 흐름을 유지하는 메커니즘을 설계한다. (4) 인간‑모델 하이브리드 대화 시나리오에서 모델 간 수렴이 인간 사용자 경험에 미치는 영향을 정량화한다. 이러한 연구는 대형 언어 모델을 다중 에이전트 시스템에 안전하고 효율적으로 활용하기 위한 이론적·실용적 기반을 제공할 것이다.

📄 논문 본문 발췌 (Translation)

**제목** 두 대형 언어모델의 상호작용이 초래하는 대화 수렴 현상

초록
본 연구에서는 외부 입력 없이 두 대형 언어모델이 서로에게 응답을 주고받으며 다중 에이전트 환경에서 진행되는 대화를 관찰하였다. 짧은 시드 문장으로 시작하여 각 모델이 상대의 출력을 읽고 다음 발화를 생성하는 과정을 고정된 턴 수만큼 반복한다. 실험에 사용된 모델은 Mistral Nemo Base 2407과 Llama 2 13B hf이며, 대부분의 대화는 초기에는 일관성을 유지하지만 이후 반복 현상이 나타난다. 여러 실행에서 짧은 구절이 등장한 뒤 지속적으로 반복되는 것이 관찰되었고, 반복이 시작되면 두 모델 모두 새로운 방향을 제시하기보다 유사한 출력을 생성하는 경향을 보였다. 이는 동일하거나 유사한 텍스트가 반복되는 루프를 형성하며, 우리는 이를 ‘수렴(convergence)’ 현상이라고 명명한다. 모델이 크고 별도로 학습되었으며 프롬프트 지시가 없음에도 불구하고 이러한 현상이 발생한다. 대화가 초기 시드로부터 얼마나 멀어지는지, 그리고 진행에 따라 두 모델의 출력이 얼마나 유사해지는지를 측정하기 위해 어휘 기반 및 임베딩 기반 지표를 적용하였다.

키워드
대형 언어 모델, 멀티에이전트 대화, 자기 반복, 수렴 현상, 어휘 거리, 임베딩 유사도

1. 서론
최근 대형 언어 모델(LLM)의 발전으로 인간‑기계 대화뿐 아니라 모델‑모델 간 상호작용에 대한 관심이 증가하고 있다. 본 연구는 인간의 개입 없이 두 LLM이 서로를 프롬프트로 삼아 대화를 이어갈 때 발생하는 동적 특성을 탐구한다.

2. 실험 설계

  • 시드 문장: “The quick brown fox jumps over the lazy dog.”(영문) 혹은 한국어 동등 문장을 사용.
  • 모델: Mistral Nemo Base 2407(≈7 B 파라미터)와 Llama 2 13B hf(13 B 파라미터).
  • 대화 흐름: 모델 A가 시드 문장을 입력받아 출력 X₁을 생성 → 모델 B가 X₁을 입력으로 받아 Y₁ 생성 → 순차적으로 교차 반복, 총 20 턴 수행.
  • 샘플링 파라미터: 온도 0.7, top‑k 50, nucleus sampling p=0.9(고정).

3. 평가 지표

  • Lexical Drift: 각 턴의 n‑gram(1~3) 분포와 시드 문장 간의 차이(다이버전스) 측정.
  • Embedding Similarity: Sentence‑Transformer 기반 임베딩을 이용해 각 턴의 출력 간 코사인 유사도 계산.

4. 결과
초기 5~7턴까지는 어휘적·의미적 다양성이 유지되었으나, 8턴 이후 특정 짧은 구절(예: “I think that”)이 등장하고 이후 반복적으로 재생산된다. Lexical Drift는 턴이 진행될수록 감소하고, Embedding Similarity는 0.85 이상으로 급격히 상승한다. 두 모델의 출력이 점차 동일한 의미 공간에 수렴함을 확인하였다.

5. 논의

  • 자기 강화 루프: 모델이 자체 생성 텍스트를 입력받을 때, 높은 확신을 가진 토큰 시퀀스가 확률적으로 재생산되어 고정점에 도달한다.
  • 모델 간 동질성: 서로 다른 아키텍처와 학습 데이터에도 불구하고 유사한 확률 분포를 공유함을 시사한다.
  • 시스템 설계 시 고려사항: 다양성 유지(노이즈 주입, 온도 조절)와 외부 검증자 도입이 필요함.

6. 한계 및 향후 연구
본 실험은 모델 수, 파라미터, 샘플링 전략을 제한했으며, 인간‑모델 혼합 시나리오에 대한 검증이 부족하다. 향후 연구에서는 (1) 다양한 모델군 및 파라미터 스케일, (2) 샘플링 전략 변형, (3) 외부 감시자 에이전트 도입, (4) 인간 사용자와의 인터랙션을 포함한 멀티에이전트 협업 환경을 탐색할 계획이다.

7. 결론
외부 입력이 전혀 없는 상황에서도 두 대형 언어 모델은 자체적으로 반복적인 고정점에 수렴한다. 이는 멀티에이전트 LLM 시스템 설계 시, 대화의 지속적인 신선도와 다양성을 보장하기 위한 메커니즘이 필요함을 강조한다.

📸 추가 이미지 갤러리

LLM_convergence.png LLM_convergence2.png per_step_deltas_bleu_11_15.png per_step_deltas_bleu_11_15_cutoff.png per_step_deltas_bleu_16_20.png per_step_deltas_bleu_16_20_cutoff.png per_step_deltas_bleu_1_5.png per_step_deltas_bleu_1_5_cutoff.png per_step_deltas_bleu_21_25.png per_step_deltas_bleu_21_25_cutoff.png per_step_deltas_bleu_26_30.png per_step_deltas_bleu_26_30_cutoff.png per_step_deltas_bleu_31_35.png per_step_deltas_bleu_31_35_cutoff.png per_step_deltas_bleu_36_40.png per_step_deltas_bleu_36_40_cutoff.png per_step_deltas_bleu_41_45.png per_step_deltas_bleu_41_45_cutoff.png per_step_deltas_bleu_46_50.png per_step_deltas_bleu_46_50_cutoff.png per_step_deltas_bleu_6_10.png per_step_deltas_bleu_6_10_cutoff.png per_step_deltas_coherence_11_15.png per_step_deltas_coherence_11_15_cutoff.png per_step_deltas_coherence_16_20.png per_step_deltas_coherence_16_20_cutoff.png per_step_deltas_coherence_1_5.png per_step_deltas_coherence_1_5_cutoff.png per_step_deltas_coherence_21_25.png per_step_deltas_coherence_21_25_cutoff.png per_step_deltas_coherence_26_30.png per_step_deltas_coherence_26_30_cutoff.png per_step_deltas_coherence_31_35.png per_step_deltas_coherence_31_35_cutoff.png per_step_deltas_coherence_36_40.png per_step_deltas_coherence_36_40_cutoff.png per_step_deltas_coherence_41_45.png per_step_deltas_coherence_41_45_cutoff.png per_step_deltas_coherence_46_50.png per_step_deltas_coherence_46_50_cutoff.png per_step_deltas_coherence_6_10.png per_step_deltas_coherence_6_10_cutoff.png per_step_deltas_cosine_11_15.png per_step_deltas_cosine_11_15_cutoff.png per_step_deltas_cosine_16_20.png per_step_deltas_cosine_16_20_cutoff.png per_step_deltas_cosine_1_5.png per_step_deltas_cosine_1_5_cutoff.png per_step_deltas_cosine_21_25.png per_step_deltas_cosine_21_25_cutoff.png per_step_deltas_cosine_26_30.png per_step_deltas_cosine_26_30_cutoff.png per_step_deltas_cosine_31_35.png per_step_deltas_cosine_31_35_cutoff.png per_step_deltas_cosine_36_40.png per_step_deltas_cosine_36_40_cutoff.png per_step_deltas_cosine_41_45.png per_step_deltas_cosine_41_45_cutoff.png per_step_deltas_cosine_46_50.png per_step_deltas_cosine_46_50_cutoff.png per_step_deltas_cosine_6_10.png per_step_deltas_cosine_6_10_cutoff.png per_step_deltas_jaccard_11_15.png per_step_deltas_jaccard_11_15_cutoff.png per_step_deltas_jaccard_16_20.png per_step_deltas_jaccard_16_20_cutoff.png per_step_deltas_jaccard_1_5.png per_step_deltas_jaccard_1_5_cutoff.png per_step_deltas_jaccard_21_25.png per_step_deltas_jaccard_21_25_cutoff.png per_step_deltas_jaccard_26_30.png per_step_deltas_jaccard_26_30_cutoff.png per_step_deltas_jaccard_31_35.png per_step_deltas_jaccard_31_35_cutoff.png per_step_deltas_jaccard_36_40.png per_step_deltas_jaccard_36_40_cutoff.png per_step_deltas_jaccard_41_45.png per_step_deltas_jaccard_41_45_cutoff.png per_step_deltas_jaccard_46_50.png per_step_deltas_jaccard_46_50_cutoff.png per_step_deltas_jaccard_6_10.png per_step_deltas_jaccard_6_10_cutoff.png pipeline5.png tsne_rounds_11_15.png tsne_rounds_16_20.png tsne_rounds_1_5.png tsne_rounds_21_25.png tsne_rounds_26_30.png tsne_rounds_31_35.png tsne_rounds_36_40.png tsne_rounds_41_45.png tsne_rounds_46_50.png tsne_rounds_6_10.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키