광고 문구 생성을 위한 강화학습 기반 LLM 프레임워크 RELATE

광고 문구 생성을 위한 강화학습 기반 LLM 프레임워크 RELATE
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

RELATE는 광고 텍스트 생성 과정을 강화학습으로 통합한 엔드‑투‑엔드 LLM 프레임워크이다. 클릭‑전환율(CTCVR)과 같은 전환 지표, 품질·다양성 제약을 다차원 보상으로 설계하고, 토큰 수준의 크레딧 할당을 통해 보상 희소성을 완화한다. 대규모 산업 데이터와 실제 서비스에 적용한 결과, 기존 2단계 파이프라인 대비 CTCVR가 9% 이상 향상되는 효과를 보였다.

상세 분석

본 논문은 온라인 광고 시스템에서 광고 문구 생성이 직면한 ‘목표 불일치’와 ‘텍스트 피로도’를 근본적으로 해결하고자 한다. 기존 방식은 (1) 후보 텍스트를 먼저 생성하고, (2) 클릭·전환 로그 기반의 랭킹·필터링으로 정렬하는 2단계 파이프라인을 사용한다. 이 과정은 생성 단계와 최적화 단계 사이에 목표가 분리돼, 최종 전환 지표와의 정합성이 떨어지고 파이프라인 전체의 퍼널 효율이 저하된다.

RELATE는 이러한 구조적 한계를 없애기 위해 LLM을 정책 네트워크(πθ)로 보고, 광고 문구 생성 자체를 강화학습(RL) 문제로 재정의한다. 핵심 설계는 다음과 같다.

  1. 다차원 보상 설계 – 전환 보상(ctcvr), 품질 보상(규정·광고 적합성), 다양성 보상(텍스트 피로도 완화)을 각각 정의하고, 가중치 함수 f(·)를 통해 단일 스칼라 보상 rₑₓₚₐᵣᵈ(x,y)로 통합한다. 품질 보상은 규제·키워드 일치, 금지어 검출 등 비즈니스 규칙을 반영하고, 다양성 보상은 n‑gram 중복도와 토큰‑레벨 엔트로피를 활용해 텍스트의 신선도를 측정한다.

  2. 크레딧 할당 메커니즘 – 전통적인 REINFORCE는 전체 시퀀스에 동일한 보상을 할당해 보상 희소성 문제를 야기한다. RELATE는 ‘그룹 컴퓨테이션’ 방식을 도입해 토큰별 어드밴티지를 추정한다. 구체적으로, 동일 입력 x에 대해 여러 후보 y₁…yₖ를 동시에 샘플링하고, 각 후보의 보상 차이를 토큰 레벨에 역전파한다. 이를 통해 고득점 토큰이 강화되고, 저득점 토큰은 억제되는 미세 조정이 가능해진다.

  3. 정책 학습 알고리즘 – 기본은 PPO‑style 클리핑 기법을 사용해 정책 업데이트의 안정성을 확보한다. 보상 정규화와 베이스라인(값 함수) 추정을 병행해 변동성을 감소시키고, 다중 보상 차원을 가중합한 스칼라 보상을 그대로 정책 그래디언트에 적용한다.

  4. 다양성‑전환 트레이드오프 – 다차원 보상 함수의 가중치를 조정함으로써 품질·다양성·전환 간의 균형을 동적으로 제어한다. 실험에서는 다양성 가중치를 높이면 텍스트 피로도가 감소하지만 전환율이 소폭 감소하는 현상이 관찰됐으며, 최적 가중치 조합을 통해 전체 CTCVR를 최대화했다.

  5. 산업 적용 및 실험 – Baidu 내부 광고 플랫폼에서 10억 건 이상의 로그 데이터를 사용해 오프라인 A/B 테스트를 수행했으며, 주요 지표(CVR, CTCVR, 정책 위반률) 모두에서 기존 2단계 모델 대비 유의미한 개선을 기록했다. 특히 정책 위반률을 0.2% 이하로 억제하면서 CTCVR를 9.19% 상승시켰다.

이러한 설계는 (a) 목표 정합성을 강화해 퍼널 압축을 달성하고, (b) 토큰‑레벨 피드백을 통해 학습 효율성을 높이며, (c) 실시간 정책 제약을 자연스럽게 모델에 내재시켜 운영 리스크를 최소화한다는 점에서 의미가 크다. 또한, 강화학습 기반 텍스트 생성이 대규모 LLM에 적용될 때 흔히 겪는 보상 희소·지연 문제를 ‘그룹 크레딧 할당’이라는 새로운 전략으로 해결한 점은 향후 다른 생성형 AI 도메인에도 확장 가능성이 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기