채굴과 정제 전자상거래 검색 등급화 관련성 최적화

채굴과 정제 전자상거래 검색 등급화 관련성 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 다중 카테고리 전자상거래 환경에서 세 단계(정확, 보조, 비관련) 등급화된 관련성을 반영한 두 단계 학습 프레임워크 “Mine and Refine”을 제안한다. 1단계에서는 라벨 인식 감독 대비 손실을 사용해 전역 의미 공간을 형성하고, 2단계에서는 ANN 기반 하드 샘플을 LLM으로 재라벨링한 뒤 다중 클래스 서클 손실로 등급 간 경계와 점수 분리를 강화한다. 오프라인 지표와 실서비스 A/B 테스트 모두에서 검색 정확도와 비즈니스 지표가 크게 향상되었다.

상세 분석

이 연구는 전자상거래 검색에서 “등급화된 관련성”이라는 실무적 요구를 정량화하고, 이를 모델 학습에 직접 반영하는 방법론을 제시한다. 첫 번째 핵심은 정책·비즈니스 제약을 만족하는 라벨링 파이프라인이다. 인간 어노테이터가 만든 3‑class 데이터셋을 기반으로 경량 LLM(gpt‑4o‑mini)을 파인튜닝해 자동 라벨링 정확도를 87.6%(3‑class)까지 끌어올렸다. 여기서 “within‑1” 정확도 98.8%는 등급 간 경계가 흐릿한 경우에도 모델이 인간 판단과 거의 일치함을 의미한다. 라벨 품질을 더욱 정제하기 위해, 참여도(engagement) 신호와 라벨이 불일치하는 30% 샘플을 고성능 LLM(GPT‑4o 등)으로 재검증했으며, 전문가 검증 결과 81.8%가 LLM 예측이 더 정확하다는 사실을 확인했다. 이는 라벨 노이즈를 5.74% 감소시켜 이후 임베딩 학습의 신뢰성을 크게 높였다.

두 번째 핵심은 두 단계 학습 설계이다. Stage 1에서는 다국어 사전학습 0.1 B 파라미터 모델을 Siamese 두‑타워 구조로 초기화하고, 라벨 인식 감독 대비(SupCon) 손실을 적용한다. SupCon은 동일 등급(예: 모두 “정확”) 샘플을 서로 끌어당기고, 다른 등급을 멀리 밀어내어 전역 의미 공간을 조밀하게 만든다. 여기서 “라벨 인식”은 3‑class 라벨을 그대로 사용해 클래스별 마스크를 적용함으로써, 기존 이진 대비 손실보다 더 풍부한 구조적 정보를 학습한다.

Stage 2에서는 ANN 인덱스를 활용해 현재 모델이 혼동하는 하드 샘플을 추출한다. 이때 기존 방식과 달리 추출된 쌍을 LLM으로 재라벨링해 “거짓 부정”(실제로는 보조·보완 관계인 샘플)과 “거짓 긍정”(실제로는 무관한 샘플)을 정확히 구분한다. 재라벨링된 데이터는 “하드 양성”(보조·보완)과 “하드 음성”(무관)으로 구성된 커리큘럼 데이터셋을 형성한다. 이후 다중 클래스 서클 손실을 적용한다. 기존 서클 손실은 양성·음성 쌍의 유사도와 비유사도를 동시에 최적화하지만, 이 논문은 3‑class 상황에 맞게 각 등급 간 목표 유사도(m₊, m₀, m₋)를 정의하고, 가중치 α,β를 통해 등급 간 마진을 명시적으로 조정한다. 결과적으로 동일 등급 내 클러스터는 촘촘히 모이고, 등급 간 경계는 원형(decision boundary) 형태로 명확히 구분된다.

추가적인 강건성 강화책으로는 철자 변형(스펠링 교체)과 아이템 속성(이름·계층·설명) 결합을 통한 합성 쿼리 생성이 있다. 이는 장기적인 긴꼬리·노이즈 쿼리 처리 능력을 향상시킨다.

실험 결과, 오프라인에서는 NDCG@10, Recall@100, Precision@50 등 주요 지표가 각각 4~7%p 상승했으며, 특히 “정확” 등급과 “보조” 등급 사이의 점수 분리도가 크게 개선돼 하이브리드 블렌딩 시 임계값 튜닝이 안정화되었다. 온라인 A/B 테스트에서는 임베딩 레트리버만 교체했음에도 불구하고 장바구니 추가율이 3.2%, 전환율이 2.8%, 총 주문 금액이 4.1% 상승했으며, 모든 지표가 95% 신뢰구간 내에서 통계적으로 유의미했다.

이러한 설계는 (1) 정책·비즈니스에 부합하는 대규모 라벨링, (2) 등급 인식을 포함한 두 단계 대비 학습, (3) 다중 클래스 서클 손실을 통한 점수 경계 강화라는 세 축을 결합해, 기존 이진 대비 밀집 학습이 놓치기 쉬운 “보조·보완” 관계까지 포착한다는 점에서 의미가 크다. 또한 다국어 지원과 경량 인퍼런스 설계는 실제 서비스 환경에 바로 적용 가능하도록 최적화돼 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기