LLM 기반 이중 에이전트로 제약을 만족하는 다목적 추천 최적화

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 전자상거래 환경에서 정확도·다양성·공정성 등 여러 목표를 동시에 최적화하면서, 판매자 커버리지·신상품 노출 등 비협상적인 비즈니스 제약을 100% 만족시키는 새로운 프레임워크 DualAgent‑Rec을 제안한다. LLM을 고수준 코디네이터로 활용해 탐색‑활용 에이전트 간 자원 배분을 동적으로 조절하고, 적응형 ε‑완화 기법을 통해 초기에는 제약을 완화하면서 탐색 효율을 높이고, 최종 단계에서는 엄격히 제약을 만족한다. Amazon Reviews 2023 데이터셋 실험에서 제약 위반이 전혀 없으며, 파레토 하이퍼볼륨을 4‑6% 향상시켰다.

상세 분석

DualAgent‑Rec은 크게 세 가지 혁신적인 요소로 구성된다. 첫째, 이중 에이전트 구조는 Exploitation Agent와 Exploration Agent로 나뉘어 각각 제약 내 최적화와 제약을 무시한 광범위 탐색을 담당한다. Exploitation Agent는 Constraint Domination Principle(CDP)을 적용해, (1) feasible 해가 불가능한 해를 지배하고, (2) 불가능한 해 중에서는 총 제약 위반량이 적은 것을 우선시하며, (3) feasible 해 사이에서는 전통적인 파레토 우위 규칙을 적용한다. 이를 통해 초기 탐색 단계에서 확보된 feasible 영역을 빠르게 수렴시킬 수 있다. 반면 Exploration Agent는 제약을 완전히 무시하고, 변이율을 두 배로 늘린 DE/pbest/1 연산자를 사용해 파레토 프론트의 넓은 영역을 탐색한다. 이때 발생하는 infeasible 해는 나중에 Exploitation Agent에게 전달되어 feasible 영역으로 전이될 가능성을 제공한다.

둘째, LLM 기반 코디네이터는 매 T 세대마다 현재 인구의 평균 적합도, 제약 위반 비율, 탐색‑활용 비율 등 구조화된 메트릭을 요약하고, 사전 학습된 프롬프트를 통해 “현재 탐색이 충분히 진행되었는가”, “제약 위반이 감소 추세에 있는가” 등을 판단한다. 판단 결과에 따라 자원 할당 파라미터 α를 동적으로 조정해 탐색과 활용 사이의 균형을 실시간으로 최적화한다. 기존 연구에서 흔히 보이는 고정 스케줄링이나 휴리스틱 기반 할당과 달리, LLM은 자연어 형태의 논리적 설명을 제공함으로써 운영자가 의사결정 과정을 이해하고 필요 시 개입할 수 있는 투명성을 확보한다.

셋째, 적응형 ε‑완화 메커니즘은 초기 단계에서 제약 위반 허용치를 통계적으로 추정된 ε₀에서 시작해, 매 세대마다 제약 위반 감소율에 따라 ε를 점진적으로 감소시킨다. 이는 탐색 단계에서 넓은 해 공간을 자유롭게 탐색하도록 허용하면서도, 최종 솔루션이 반드시 모든 hard constraint를 만족하도록 보장한다. 특히, ε‑완화는 각 제약 g₁, g₂, g₃에 별도로 적용되어, 예를 들어 신규 아이템 노출 제약은 초기에는 30% 위반을 허용하되, 최종 5% 이하로 수렴하도록 설계된다.

실험에서는 Amazon Reviews 2023 데이터셋(수백만 사용자·수백만 아이템)에서 10개의 다목적 목표(정확도, 다양성, 신상품 노출, 카테고리 공정성, 판매자 커버리지 등)를 동시에 최적화하였다. Baseline으로는 MultiTRON, Deep Pareto RL, 그리고 최신 LLM 기반 재추천 에이전트(CARTS, ARA‑G)를 사용했으며, DualAgent‑Rec은 모든 베이스라인 대비 파레토 하이퍼볼륨을 평균 5% 이상 개선하고, 제약 위반률을 0%로 유지했다. 수렴 속도 역시 탐색‑활용 비율을 동적으로 조정한 덕분에 30% 정도 빠르게 최적점에 도달했다.

이러한 결과는 LLM이 단순히 아이템 스코어링을 넘어, 복합 제약을 가진 실시간 최적화 문제에서 고수준 의사결정자 역할을 수행할 수 있음을 실증한다. 특히, 비즈니스 요구가 엄격히 변하지 않는 환경(예: 금융, 의료, 전자상거래)에서 “제약 위반이 한 번이라도 발생하면 안 된다”는 조건을 만족시키면서도 다목적 성능을 끌어올릴 수 있는 실용적인 설계 패턴을 제공한다.

LLM 기반 이중 에이전트로 제약을 만족하는 다목적 추천 최적화

초록

상세 분석

댓글 및 학술 토론

의견 남기기