eBay 광고주의 맞춤형 키워드 추천을 위한 LLM 기반 지식 증류 프레임워크

eBay 광고주의 맞춤형 키워드 추천을 위한 LLM 기반 지식 증류 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

eBay 연구팀은 클릭 데이터의 편향을 해결하고 판매자, 검색 시스템, 구매자 선호를 모두 반영한 키프레이즈를 추천하기 위해 새로운 프레임워크를 제안했습니다. LLM을 ‘교사’, 크로스-인코더를 ‘조교’, 바이-인코더를 ‘학생’ 모델로 설정한 2단계 지식 증류 방식을 통해, 효율적이면서도 정확한 추천 시스템을 구축하였습니다.

상세 분석

본 논문이 해결하고자 하는 근본 문제는 전자상거래 광고 시스템에서 흔히 발생하는 ‘클릭 데이터의 편향성’입니다. 클릭은 노출 순위, 인기도, 선택 편향 등에 크게 영향을 받으며, 클릭이 없다고 해서 해당 아이템과 키워드가 무관한 것은 아닙니다. 더욱이, 검색 시스템의 관련성 필터를 통과한 데이터만 클릭 로그에 기록되는 ‘중개자 편향’도 존재합니다. 이러한 편향된 데이터로 모델을 학습하면 기존 인기 아이템과 키워드만을 강화하는 악순환이 발생합니다.

연구팀의 핵심 해결책은 다양한 신호원으로부터의 ‘하이브리드 감독’과 ‘계층적 지식 증류’입니다. 첫째, 클릭 데이터 외에 검색 관련성(SR) 점수와 LLM(Mixtral 8x7B)이 생성한 관련성 레이블을 추가 데이터로 활용하여 편향을 보완했습니다. 둘째, LLM(교사) -> 크로스-인코더(조교) -> 바이-인코더(학생)의 2단계 증류 파이프라인을 설계했습니다. 크로스-인코더는 LLM의 판단을 정제하고 보정하는 역할을 하며, 최종적으로는 저렴하고 빠른 바이-인코더가 이 지식을 전수받아 실제 서비스에 배포됩니다.

기술적 통찰로는 지식 증류 손실 함수의 비교 실험 결과가 중요합니다. 기존 회귀식 MSE 손실은 성능이 낮았던 반면, 순위와 보정을 동시에 고려하는 Pearson 상관관계 기반 손실 함수가 가장 우수한 성능(F1 0.88, ρ 0.87)을 보였습니다. 이는 단순한 점수 일치보다는 모델 간 상대적 순위 관계를 전달하는 것이 증류의 핵심임을 시사합니다. 또한, LLM에서 직접 바이-인코더로 증류하는 것보다 크로스-인코더를 중간 매개체로 사용한 2단계 방식이 훨씬 효과적이었는데, 이는 크로스-인코더가 LLM의 지식을 태스크에 맞게 구체화하고 정규화하는 ‘캘리브레이션’ 역할을 수행하기 때문으로 해석됩니다.


댓글 및 학술 토론

Loading comments...

의견 남기기