다양한 텍스트 소스로부터 고충실도 사용자 표현 생성 via 강화학습
초록
본 논문은 LinkedIn과 같은 대규모 구인 플랫폼에서 회원의 프로필, 경력, 검색 로그 등 이질적인 텍스트 데이터를 하나의 간결하고 해석 가능한 텍스트 요약으로 통합하는 강화학습 프레임워크를 제안한다. 사용자 클릭·지원 등 암묵적 참여 신호를 보상으로 활용하고, 형식·길이 제약을 위한 규칙 기반 보상을 결합해 1.7 B 파라미터 LLM을 정책(액터)으로, 30 B 파라미터 LLM을 보상 모델(오라클)로 사용한다. 오프라인 실험에서 기존 임베딩·핸드‑엔지니어링 방식 대비 downstream 추천·검색 지표가 크게 향상됨을 입증한다.
상세 분석
이 연구는 기존 사용자 표현 방식의 두 가지 근본적인 한계를 정확히 짚어낸다. 첫째, 밀집 임베딩은 차원 자체가 의미론적으로 해석되지 않아 운영 단계에서 모델 업데이트 시 재학습 비용이 크게 발생한다. 둘째, 손으로 만든 희소 피처는 커버리지가 제한적이며 유지보수가 부담스럽다. 이러한 문제를 해결하기 위해 저자는 “텍스트 요약 = 사용자 표현”이라는 패러다임을 제시한다. 텍스트는 LLM의 토큰 공간에 직접 매핑되므로, 별도의 프로젝션 레이어 없이도 프롬프트 기반 검색·추천 파이프라인에 바로 투입할 수 있다. 핵심 기술은 강화학습 기반 정책 최적화이다. 정책 πθ는 입력 컨텍스트 q(프로필, 경력, 검색 로그 등)를 받아 토큰 시퀀스를 생성하고, 생성된 요약 o에 대해 보상 R(o|q)를 계산한다. 보상은 크게 두 부분으로 구성된다. ① 암묵적 참여 신호(클릭, 지원 등)를 기반으로 한 점wise·listwise 예측 보상; ② 길이·형식 제약을 만족하도록 설계된 규칙 기반 보상이다. 정책 업데이트는 GRPO(그룹 상대 정책 최적화)를 기반으로 하며, PPO 스타일의 클리핑과 KL 정규화를 결합해 학습 안정성을 확보한다. 또한 DAPO와 Dr.GRPO를 도입해 탐색 손실과 길이 편향을 보정한다. 액터는 1.7 B 규모의 사전 학습 LLM을 사용해 실시간 추론 비용을 제한하고, 보상 모델은 30 B 규모의 대형 LLM을 프롬프트로 호출해 인간 라벨 없이도 의미론적 판단을 제공한다. 실험에서는 LinkedIn의 여러 제품(Job Search, Recommendations 등)에서 클릭‑스루율(CTR), 지원 전환율 등 핵심 KPI가 3~7% 상승했으며, 생성된 텍스트는 150 토큰 이하로 제한돼 latency 요구사항을 충족한다. 전체 시스템은 라벨‑프리 방식이므로 데이터 라벨링 비용이 거의 들지 않으며, 새로운 downstream 작업이 추가될 때마다 보상 프롬프트만 수정하면 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기