다중 에이전트 강화학습을 활용한 동적 가격 책정 수익 안정성 공정성 균형

본 논문은 경쟁이 치열한 소매 시장에서 동적 가격 책정 전략을 자동화하기 위해 최신 다중 에이전트 강화학습(MARL) 알고리즘을 체계적으로 평가한다. 연구는 크게 네 부분으로 구성된다. 첫 번째는 문제 정의와 시뮬레이션 환경 구축이다. 저자는 UCI Online Retail 데이터셋을 기반으로 50개 SKU에 대한 가격‑수요 관계를 CatBoost 회귀 모델로 학습하고, 이를 통해 실제 시장의 탄력성을 재현한다. 데이터 전처리 과정에서 결측치·취소 주문을 제거하고, 월별 집계로 변환해 160개의 학습 기간과 40개의 검증 기간을 확보한다. 이 모델을 바탕으로 3명의 판매자를 에이전트로 하는 맞춤형 마켓플레이스 시뮬레이터를 구현한다. 각 에이전트는 매 시점에 연속적인 가격 조정(−30%~+30%)을 선택하고, 전체 시장 수요는 소프트맥스 형태의 시장점유 모델과 가우시안 노이즈를 결합해 경쟁 효과와 불확실성을 동시에 반영한다. 보상은 매출에서 비용(가격의 70%)을 차감한 순이익으로 정의되며, 목표는 할인된 누적 이익을 최대화하는 것이다. 두 번째는 비교 대상 알고리즘 선정이다. 독립형 DDPG(IDDPG)를 베이스라인으로 삼고, 세 가지 CTDE 기반 MARL 알고리즘을 도입한다. (1) MAPPO: 다중 에이전트 PPO로, 중앙화된 가치 함수와 각 에이전트별 확률적 정책을 사용한다. 클리핑된 서브시볼릭 손실과 GAE를 통해 정책 업데이트 시 급격한 변화를 억제한다. (2) MADDPG: 각 에이전트가 중앙화된 Q‑네트워크를 활용해 결정론적 정책을 학습한다. (3) MASAC: 엔트로피 정규화를 도입한 오프‑폴리시 알고리즘으로, 두 개의 Q‑네트워크와 목표 네트워크를 사용해 샘플 효율을 높인다. 네 알고리즘 모두 동일한 신경망 구조(액터: 2×128, Critic: 2×256)와 학습률(3e‑4), 할인율(γ=0.99)를 적용해 공정한 비교를 보장한다. 세 번째는 실험 설계와 평가 지표이다. 각 알고리즘은 10개의 서로 다른 랜덤 시드로 400 에피소드(각 에피소드 24 타임스텝) 학습한다. 학습 중 매 20 에피소드마다 탐색을 비활성화한 평가를 수행해 평균 누적 이익과 표준편차를 기록한다. 추가적으로 에이전트 간 이익 분배의 공정성을 지니계수와 라우시엔스 지표로 측정한다. 학습 효율성은 동일한 에피소드 수 내에서 수렴 속도와 최종 평균 보상을 기준으로 비교한다. 네 번째는 결과 분석이다. MAPPO는 평균 누적 이익이 가장 높으며, 표준편차가 가장 낮아 시드 간 변동성이 최소화된다. 이는 온‑폴리시 방식이지만 다중 에포크와 미니배치 샤플링을 통해 데이터 활용도를 높인 덕분이다. MADDPG는 MAPPO보다 약 5% 낮은 평균 이익을 기록했지만, 에이전트 간 이익 차이가 가장 작아 공정성이 최고였다. MASAC은 최고 순간 이익을 달성했으나, 학습 초기에 급격한 정책 변동과 높은 표준편차가 나타나 실운용 시 위험이 크다. 독립형 IDDPG는 가장 낮은 평균 이익과 높은 변동성을 보이며, 비협조적 학습으로 인한 비안정성을 확인할 수 있다. 결론적으로, 동적 가격 책정이라는 복합 다중 에이전트 환경에서 CTDE 기반 MAPPO가 가장 실용적인 선택임을 입증한다. MAPPO는 높은 수익성, 낮은 변동성, 빠른 수렴을 동시에 제공해 실제 e‑커머스 플랫폼에 적용하기에 적합하다. MADDPG는 공정한 이익 분배가 중요한 상황(예: 다수 파트너가 공동으로 운영하는 마켓플레이스)에서 고려할 수 있다. MASAC은 탐색이 극히 중요한 신규 시장 진입 단계에서 보조적인 역할을 할 수 있지만, 안정성을 위해 추가적인 하이퍼파라미터 튜닝이 필요하다. 본 연구는 향후 실제 소매 데이터와 실시간 피드백을 활용한 현장 적용 연구의 기반을 제공한다.

다중 에이전트 강화학습을 활용한 동적 가격 책정 수익 안정성 공정성 균형

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기