- Title: LLM Collusion
- ArXiv ID: 2601.01279
- 발행일: 2026-01-03
- 저자: Shengyu Cao, Ming Hu
📝 초록
알고리즘의 상업적 의사결정에 대한 신속한 채택은 점점 더 많은 규제 감시를 받게 되었다. 연방거래위원회(FTC)와 법무부(DOJ)는 알고리즘 가격 결정 시스템이 명시적인 경쟁업체 간의 합의 없이 불법 공모를 가능하게 할 수 있다고 경고했다. 판매자가 대형 언어 모델(LLM)을 가격결정에 의존하는 것이 증가하면서 규제는 아직 이 영역을 다루지 못하고 있다. LLM들이 사전 훈련된 인간 지식을 기반으로 가격 결정 전략을 학습하기 때문에, 이런 모델이 경쟁 회사 간의 공모를 용이하게 할 위험이 있다.
💡 논문 해설
1. **첫 번째 기여**: 알고리즘들이 어떻게 불법 공모로 이어질 수 있는지에 대한 이해. 이를 위해 LLM과 강화 학습을 비교한다. 마치 여러 사람이 동일한 지도를 보고 같은 길을 가는 것처럼, LLM은 경쟁 회사들 사이에서 가격 결정을 일관되게 만든다.
두 번째 기여: 공유된 알고리즘 구조와 데이터 공유 정책이 어떻게 공모 위험을 증가시키는지 분석한다. 이는 마치 모든 학생들이 같은 교과서에서 배우기 때문에 모두 비슷한 시험 결과를 내는 것처럼, LLM은 경쟁 회사들 사이에서 일관된 가격 결정을 가능하게 한다.
세 번째 기여: 공모가 어떻게 발생하는지에 대한 이론적 프레임워크 제시. 이를 통해 공모가 의도하지 않은 결과로 나타날 수 있다는 것을 보여준다. 이는 마치 사람들이 무의식적으로 같은 행동을 하게 되어 그룹 전체가 동일한 방향으로 움직이는 것처럼, LLM은 경쟁 회사들이 일관된 가격 결정을 할 수 있게 한다.
Sci-Tube 스타일 스クリプト
안녕하세요! 오늘은 알고리즘의 공모 위험에 대해 이야기해 보겠습니다. 마치 여러 사람이 동일한 지도를 따라 같은 길로 움직이는 것처럼, LLM은 경쟁 회사들이 일관된 가격 결정을 하도록 만듭니다. 이는 공유된 알고리즘 구조와 데이터 공유 정책 때문에 발생하며, 결과적으로 불법 공모가 가능하게 되는 위험성을 증가시킵니다.
3단계 난이도
초보자: LLM은 경쟁 회사들이 동일한 가격 결정을 하도록 만드는 툴입니다.
중급자: 공유된 알고리즘 구조와 데이터 공유 정책이 어떻게 경쟁 회사들 사이의 일관된 가격 결정을 가능하게 하는지 이해합니다.
고급자: LLM을 사용한 가격 결정에서 공모가 발생할 수 있는 이론적 배경과 그 위험성을 분석합니다.
📄 논문 발췌 (ArXiv Source)
# 서론
상업적 의사결정에 알고리즘의 신속한 채택은 점점 더 많은 규제 감시를 받게 되었다. 2024년 3월, 연방거래위원회(FTC)와 법무부(DOJ)는 공동 성명을 발표하여 알고리즘 가격 결정 시스템이 명시적인 경쟁업체 간의 합의 없이 불법 공모를 가능하게 할 수 있다고 경고했다. 이후 규제 신호는 더욱 강화되었다: 2025년 8월, DOJ 부차관 Gail Slater은 알고리즘 가격 결정 조사가 기술 사용 증가에 따라 크게 늘어날 것이라고 발표했다.
이 규제 우려는 판매자가 대형 언어 모델(LLM)을 가격결정에 의존하는 것이 증가하면서 특히 중요하다. 2024년 맥킨지의 Fortune 500 소매 임원 설문조사에 따르면, 90%가 생성 AI 솔루션 실험을 시작했으며, 가격 및 프로모션 최적화는 우선 사용 사례였다. 유럽에서는 2025년까지 55%의 소매업자가 동적인 가격 결정에 대한 생성 AI 테스트를 계획하고 있으며, 이미 알고리즘 가격 결정을 채택한 61%가 있다.
시장 집중화는 높은 규제 압력과 함께 나타난다. 2025년 현재 ChatGPT는 비즈니스-소비자 AI 구독 시장의 약 62.5%를 점유하고 있으며, Fortune 500 기업 중 92%가 OpenAI 제품을 사용한다고 보고했다. 이 인공지능 인프라의 집중화와 높아진 반독점 우려는 근본적인 질문을 제기한다: LLM을 가격결정에 널리 채택하면 경쟁 판매자 사이에서 공모가 가능할까?
알고리즘이 학습을 통해 공모를 배울 수 있는 가능성은 기계학습/강화학습(RL)의 맥락에서 광범위하게 연구되었다. Q-학습 에이전트는 반복 게임에서 시도와 오류를 통해 초경쟁적 가격으로 수렴할 수 있음을 보여준다. 그러나 이 공모는 일반적으로 길고 많은 상호작용을 필요로 하므로, 실제 우려가 제한될 수 있다. LLM은 근본적으로 다른 패러다임이다. RL 에이전트와 달리, LLM은 반복된 시장 상호작용을 통해 가격 전략을 처음부터 학습하지 않고 방대한 인간 지식 코퍼스에서 사전 훈련된다. 최근 실험적 연구에 따르면 LLM 기반 가격 에이전트는 Q-학습 알고리즘의 수십만에서 수백만 회보다 훨씬 빠른 100 회 이내에 근사 최적 공모 가격으로 수렴한다. 그러나 이러한 가속화의 이론적 메커니즘이 아직 잘 이해되지 않았다.
가격 결정 메커니즘 비교. (a) 강화 학습에서는 각 판매자가 반복된 시장 상호작용을 통해 가격 전략을 처음부터 학습하는 독립적인 알고리즘을 배포한다. 공모는 수백만 회의 반복을 거치면서 천천히 나타난다. (b) LLM 기반 가격 결정에서는 두 판매자가 내재적으로 높은 가격 선호도를 갖는 사전 훈련된 모델에 질의한다. 공유된 지식 인프라가 연관된 추천을 생성하며, 재훈련 중 데이터 공유는 판매자 피드백을 집계하여 빠른 공모 결과 수렴을 위한 자기 강화 루프를 형성한다.
우리는 LLM 기반 의사결정에 고유한 두 가지 공모 위험 요인을 식별하고, LLM 기반과 RL 기반 접근 방식의 차이점을 그림 1에서 설명합니다. 구체적으로, 첫 번째 원인은 시장 집중화로 인해 발생하는 공유된 지식 인프라입니다. 상기한 주도적 위치를 고려하면 경쟁 판매자가 종종 동일한 LLM 공급업체에게 가격 결정을 위임합니다. 여러 판매자가 같은 모델에 질의할 때 그들의 채택된 추천은 모델 내부의 잠재적인 선호도를 통해 연관될 수 있습니다. 이 연관성은 판매자 간 의사소통 없이 암묵적 조정을 생성합니다: 각 판매자가 독립적으로 LLM에 질의하더라도 공통된 기본 선호도가 가격 행동에서 긍정적인 연관성을 유발할 수 있습니다. 더 나아가 다른 LLM 공급업체를 사용하는 판매자들 사이에서도 공유된 지식은 계속됩니다. 주요 LLM들은 종종 경쟁사에 의해 작은 모델로 증류되어, 주도적 제공자의 내장 가격 휴리스틱을 보다 넓은 생태계로 전달합니다.
두 번째 위험 요인은 데이터 공유 정책으로 구성된 모델 개선을 통제하는 것입니다. 주요 LLM 공급업체는 사용자 상호작용 데이터를 수집하여 그들의 모델을 세밀화하며 판매자의 행동과 모델 업데이트 사이의 피드백 루프를 생성합니다. 구글의 Gemini는 18세 이상 사용자를 대상으로 디폴트로 활성화된 “Keep Activity” 설정을 통해 플랫폼이 대화와 업로드 파일, 이미지 및 비디오를 분석하고 AI 훈련에 활용할 수 있습니다. Anthropic은 2025년 8월 정책 변경으로 데이터 공유를 디폴트로 설정하였으며, 사용자의 동의가 있으면 5년간 보관합니다. xAI는 API 크레딧을 통해 상호작용 데이터를 공유하는 개발자에게 $150을 제공하며, 프로그램에 참여한 후에는 선택할 수 없습니다.
여러 판매자가 같은 LLM 공급업체에게 가격 결정 상호작용과 결과를 공유하면 모델의 재훈련 과정에서 이 데이터가 집계됩니다. 여러 판매자들이 높은 가격이 높은 이익으로 이어질 때, 모델은 자신의 선호도에 따라 업데이트할 수 있습니다. 이것이 또 다른 근본적인 질문을 제기한다: 경쟁 판매자의 데이터 집계는 가격을 공모 수준으로 향하게 하는 자가 강화 피드백 루프를 생성하는가?
이 논문은 판매자가 동일한 LLM에게 가격 결정을 위임할 때 공모가 발생하는 이론적 프레임워크를 개발한다. 의도하지 않은 결과로 표준 운영 관행에서 공모가 발생할 수 있다는 놀라운 발견이 있다.
모델.
우리는 두 판매자가 동시에 높은 가격 전략(‘H’)과 낮은 가격 전략(‘L’) 사이를 선택하는 대칭 이중 경쟁 게임을 고려한다. 두 판매자는 동일한 LLM에 가격 결정을 위임한다. LLM의 행동은 두 가지 매개변수로 특징지어진다: 경향성 매개변수 ‘$\theta \in [0,1]$‘는 모델의 내부 높은 가격 추천 선호도를 나타내며, 출력 정밀도 ‘$\rho \in [0.5,1]$‘는 이 선호와 생성된 출력 간의 일치 확률을 포착한다. LLM은 모델 재훈련을 통해 자신의 경향성을 업데이트한다: 각 결정 라운드의 배치 $b \geq 1$에서 행동과 결과를 관찰한 후, 높은 가격 추천 대비 낮은 가격 추천의 상대적 성능을 평가하고 ‘$\theta$‘를 조정한다. 이 업데이트는 높은 가격이 우수할 때 ‘$\theta$‘를 증가시키고 그렇지 않으면 감소시키는 로그-확률 순환에 따라 이루어진다.
결과.
우리는 먼저 LLM 재훈련이 대규모 배치 상호작용 데이터로 수행되는 벤치마크 설정을 분석한다. 여기서 추정 노이즈가 간과될 수 있다. 높은 가격 추천이 자가 강화되는지 여부는 조정 혜택과 혼란의 비용 사이에서 두 가지 경쟁 요인이 결정한다: 양 판매자가 동일한 높은 가격 추천을 받고 따를 때 협력의 혜택, 혹은 판매자들이 다른 추천을 받아 낮은 가격 판매자가 시장을 장악할 때 혼란의 비용. 출력 정밀도가 충분히 높으면 협력의 혜택이 우세하고 학습이 LLM의 높은 가격 선호도를 강화한다.
주목해야 할 점은 실제로 결정자가 찾는 것이 바로 높은 출력 정밀도라는 것이다. 낮은 정밀도, 즉 고온 해독은 추천에 무작위성을 추가한다. 이 불확실성은 판매자에게 운영 비용을 부과한다: 일관되지 않은 가격이 고객을 혼란스럽게 하고 브랜드 가치를 침식하며 잡음 출력은 실제 수익이 사려 깊은 전략에서 발생했는지 단순히 운으로부터 나왔는지를 흐리게 하며, 확률적 추천은 규제 당국이 알고리즘 가격 결정 시스템에 요구하는 설명성을 약화시킨다. 따라서 판매자는 해독 온도를 0 또는 근사하게 설정하여 LLM을 견고하고 재현 가능하도록 구성한다.
우리는 장기적인 가격 행동에서 위상 전환을 구축하며, 이는 임계 출력 정밀도 문턱에 의해 통제된다. 이 문턱 아래에서는 경쟁적 가격이 유일한 안정된 결과가 되며 LLM은 초기 선호도와 상관없이 낮은 가격 추천으로 수렴한다. 이 문턱 위에서는 두 가지 안정된 결과가 공존하며 어떤 결과가 나타나는지는 모델의 초기 선호도에 달려있다. 출력 정밀도가 완벽할 때, 즉 LLM의 추천이 내부 선호를 완전히 반영할 때 시스템은 모든 내부 시작점에서 전체 공모로 수렴한다. 견고성을 위해 LLM을 구성하는 표준 관행은 판매자가 우연히 공모가 발생하는 매개변수 영역으로 밀어넣는다.
그런 다음 실제적인 설정을 분석한다: LLM이 유한한 배치에서 재훈련되므로 학습 중 무작위성이 계속 존재한다. 시스템은 여전히 안정된 결과로 수렴하지만, 도달하는 결과는 이제 경과한 랜덤 훈련 데이터에 따라 달라진다. 동일한 초기 조건을 가진 동일한 모델이 장기적인 결과가 다르게 수렴할 수 있다. 배치 크기와 초기 조건에 따른 공모 확률을 캐릭터화한다. 모델의 초기 선호도가 공모 가격으로 이끄는 영역에 있을 때, 더 큰 배치 크기는 잡음이 시스템을 경쟁적 가격으로 유도하는 것을 억제함으로써 공모 확률을 증가시킨다. 두 결과 모두 가능한 진정한 불확실성 구역은 배치 크기가 커질수록 줄어든다. 이 결과는 주요 LLM 제공업체가 컴퓨팅 비용 때문에 채택하는 희박한 재훈련 일정이 실제로 큰 효과적인 배치 크기를 생성하여 공모 위험을 증폭시킨다는 것을 암시한다.
문헌 고찰
저희의 연구는 세 가지 문헌 스트림과 밀접하게 관련되어 있다: 알고리즘 공모, LLM 기반 가격 결정 및 전략적 행동 그리고 알고리즘 단일화.
알고리즘 공모. 증가하는 수의 연구 결과에 따르면 가격 설정 알고리즘이 명시적인 조정 없이 초경쟁적 가격을 지속할 수 있음을 보여주었다(알고리즘 공모에 대한 문헌 리뷰 참조). 판매자가 경쟁을 무시한 수요 모델을 사용하고, 학습 동역학은 모델 사양과 초기 조건에 따라 놈스 균형에서부터 공모 가격까지의 결과를 얻는 것을 분석한다. Q-학습 알고리즘이 보상-벌칙 전략을 통해 반복적인 가격 설정 게임에서 공모 결과로 수렴하는 것을 보여준다. 이를 연속적인 가격 결정으로 확장하고 독립적 알고리즘들이 공모를 유지할 수 있는 관련된 믿음을 발전시키는 이론적 기반을 제공한다. 공통의 가격 실험을 통해 협력이 발생할 수 있음을 보여주며, 알고리즘이 경쟁자의 가격을 관찰하지 않아도 된다. 경험적으로, 독일 소매 휘발유 시장에서 양자 경쟁업체가 알고리즘 가격 결정을 채택했을 때 마진이 28% 증가했다고 보고한다.
알고리즘 공모의 범위와 견고성은 여전히 논란 중이다. 이 프레임워크를 역동적인 설정으로 확장하여 불완전한 모니터링을 제안하고 협력이 미세한 탐색에 의해 발생할 수 있음을 제시한다. 기울기 기반 알고리즘을 통해 협력이 발생할 수 있음을 증명하며, 암묵적 알고리즘 공모를 위한 첫 번째 이론적인 수렴 보장을 제공한다. 표준 epsilon-greedy 밴딧 알고리즘이 종합 게임에서 하위 선형 후회로 암묵적 협력을 가능하게 함을 보여준다. 아ксиOMATIC 교섭 이론을 적용하여 자체 플레이를 통해 공모 가격으로 수렴하는 명시적인 “공모 또는 경쟁” 가격 설정 알고리즘을 구성한다. 그들의 분석은 기업들이 동일한 알고리즘을 배포할 때 공모 가격이 발생할 수 있음을 보여준다. 이론적으로 간단한 가격 설정 알고리즘이 마코프 완벽 균형에서 가격 수준을 높일 수 있음을 증명한다.
그러나 여러 연구는 협력이 발생하지 않는 조건을 식별한다. Q-학습 공모가 기업들의 계획 시기와 무관한 시간 규모에서만 발생하며 알고리즘 선택에 암묵적인 조정이 필요하다고 비판적으로 검토한다. 다항 로그 분산 수요하에서는 온라인 경사 하강 가격 설정 알고리즘이 유일한 놈스 균형으로 수렴함을 증명하며, 공모가 모든 알고리즘 유형에 걸쳐 보편적이지 않음을 시사한다. 기업들이 개별 데이터 기반 학습 알고리즘을 사용하면서 경쟁업체 정보에 접근하지 않을 때 자연스럽게 놈스 균형으로 수렴함을 증명하여 공통된 데이터가 공모를 필요로 한다고 나타낸다. 경매 환경에서 적응적 페이싱 전략이 대규모 시장에서 약간의 놈스 균형을 구성한다. 규제 측면에서는 교정된 후회 기반 가격 설정 알고리즘에 대한 감사 프레임워크를 개발하여 암묵적 협력 탐지를 위한 도구를 제공한다.