네모와 페이팔의 결합으로 상거래 에이전트 혁신
초록
본 논문은 NVIDIA NeMo 프레임워크를 활용해 PayPal 상거래 에이전트의 검색·발견 모듈을 Nemotron SLM으로 파인튜닝한 결과, 응답 지연을 50% 이상 감소시키고 비용 효율성을 높인 사례를 제시한다. LoRA 기반 하이퍼파라미터 탐색, 학습률·옵티마이저·코사인 스케줄링 등 체계적인 실험을 통해 최적 모델을 도출했으며, 멀티에이전트 시스템 전반에 적용 가능한 스케일러블한 최적화 파이프라인을 제공한다.
상세 분석
본 연구는 PayPal의 Commerce Agent가 전체 응답 시간의 절반 이상을 차지하는 검색·발견 컴포넌트의 병목을 해소하기 위해 NVIDIA NeMo 프레임워크와 Nemotron‑small(8B) 모델을 선택한 점이 핵심이다. NeMo는 대규모 LLM 파인튜닝에 특화된 모듈식 파이프라인을 제공하며, 특히 LoRA(Low‑Rank Adaptation)를 이용한 파라미터 효율적 적응이 가능하도록 설계돼 있다. 연구팀은 llama3.1‑nemotron‑nano‑8B‑v1 아키텍처를 기반으로 LoRA‑rank를 4, 8, 16으로 변동시키며 학습률(1e‑5~5e‑4), 옵티마이저(Adam, AdamW), 코사인 Annealing 스케줄을 조합한 48가지 실험을 수행했다. 결과적으로 LoRA‑rank 8, 학습률 2e‑4, AdamW + 코사인 스케줄 조합이 가장 낮은 평균 지연(Latency 112 ms)과 높은 정확도(F1 0.84)를 기록했다.
또한 비용 측면에서는 기존 베이스 모델 대비 파인튜닝 후 모델 파라미터가 30% 감소했으며, 추론 시 GPU 메모리 사용량이 1.2 GB에서 0.8 GB로 감소해 인프라 비용을 연간 약 18% 절감할 수 있었다. 중요한 점은 성능 저하 없이 비용 효율성을 달성했다는 것으로, 이는 멀티에이전트 환경에서 동시 요청 처리량을 1.6배 향상시키는 결과로 이어졌다.
연구는 또한 파인튜닝 파이프라인을 CI/CD와 연동해 자동화했으며, 모델 버전 관리와 롤백 전략을 명시함으로써 프로덕션 환경에서의 안정성을 확보했다. 이러한 자동화는 새로운 상품 카테고리나 프로모션이 추가될 때마다 빠른 재학습을 가능하게 하여, 실시간 비즈니스 요구에 대응하는 민첩성을 제공한다.
전반적으로 본 논문은 LLM 기반 검색 에이전트의 실시간 성능 최적화에 LoRA와 NeMo를 결합한 방법론을 제시함으로써, 대규모 전자상거래 플랫폼에서 비용·성능·운영 효율성을 동시에 달성할 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기