규칙에 기반한 이커머스 관련성 평가 벤치마크 RAIR

읽는 시간: 8 분
...

📝 원문 정보

- Title: RAIR A Rule-Aware Benchmark Uniting Challenging Long-Tail and Visual Salience Subset for E-commerce Relevance Assessment
- ArXiv ID: 2512.24943
- 발행일: 2025-12-31
- 저자: Chenji Lu, Zhuo Chen, Hui Zhao, Zhenyi Wang, Pengjie Wang, Jian Xu, Bo Zheng

📝 초록

본 논문에서는 e커머스 관련성 평가를 위한 새로운 벤치마크 **RAIR**을 소개합니다. RAIR는 규칙에 기반한 평가 체계와 다양한 데이터 세트로 구성되어 있으며, 이를 통해 모델의 정확성을 향상시키고 복잡한 케이스에서의 성능을 개선할 수 있습니다.

💡 논문 해설

1. **표준화된 평가 프레임워크** - RAIR는 상품과 질의 간의 관련성 평가를 위한 4단계 척도를 정의하고, 이를 통해 모델이 얼마나 잘 수행되는지 평가할 수 있는 객관적이고 정밀한 기준을 제공합니다. 이는 마치 경주에서 선수들의 성능을 판단하는 기준선과 같습니다. 2. **다양한 데이터 세트 구성** - RAIR는 일반적인 케이스부터 어렵고 복잡한 케이스까지 평가하기 위한 다양한 데이터 세트를 제공합니다. 이는 학습자가 기본부터 고급 수준까지 단계적으로 배울 수 있는 교과서와 같습니다. 3. **멀티모달 평가 기능** - RAIR는 이미지와 텍스트 모두를 활용한 멀티모달 관련성 평가를 지원합니다. 이는 시각적 정보와 텍스트 정보를 함께 고려하여 더욱 정확하고 상세한 분석을 가능하게 합니다.

📄 논문 발췌 (ArXiv Source)

<ccs2012> <concept> <concept_id>00000000.0000000.0000000</concept_id> <concept_desc>이 코드를 사용하지 말고, 논문에 맞는 정확한 용어를 생성하세요.</concept_desc> <concept_significance>500</concept_significance> </concept> <concept> <concept_id>00000000.00000000.00000000</concept_id> <concept_desc>이 코드를 사용하지 말고, 논문에 맞는 정확한 용어를 생성하세요.</concept_desc> <concept_significance>300</concept_significance> </concept> <concept> <concept_id>00000000.00000000.00000000</concept_id> <concept_desc>이 코드를 사용하지 말고, 논문에 맞는 정확한 용어를 생성하세요.</concept_desc> <concept_significance>100</concept_significance> </concept> <concept> <concept_id>00000000.00000000.00000000</concept_id> <concept_desc>이 코드를 사용하지 말고, 논문에 맞는 정확한 용어를 생성하세요.</concept_desc> <concept_significance>100</concept_significance> </concept> </ccs2012>

/>

서론

웹의 급속한 발전으로 e커머스가 일상 생활에서 중요한 부분이 되었습니다. 타오바오와 아마존과 같은 e커머스 플랫폼을 통해 수십억 명의 소비자가 원하는 상품을 검색합니다. 이러한 플랫폼은 강력한 검색 엔진으로 구성되어 있으며, 사용자의 질의를 처리하고 수십억 개의 제품 목록에서 관련 항목을 추출하여 사용자의 의도에 가장 잘 부합하는 항목을 제공합니다. 따라서 상품과 질의 간의 관련성이 전 파이프라인에서 매우 중요합니다.

관련성은 연구 커뮤니티에서 큰 관심을 받고 있습니다. 대형 언어 모델(LLMs)이 탁월한 능력을 보여주면서, 이들은 관련성을 평가하는 주요 기반으로 자리잡았습니다. 이전의 인코더 기반 접근법과 달리 LLM 기반 방법은 모델의 연쇄적 사고(CoT) 능력에 더 큰 중점을 둡니다. ELLM은 관련성 작업을 두 단계로 나누어, 속성 추출 기반 추론이 최종 결정 과정 전에 이루어집니다. LREF는 합성된 다차원 연쇄적 사고 예시를 통해 모델의 능력을 향상시키며, 규칙 참조와 속성 추출을 통합합니다. 이러한 모델들은 일반적인 경우에서 고급 추론 능력을 보여주므로, 도전적인 평가 벤치마크 개발이 중요하게 됩니다. 기존 데이터셋인 Shopping Queries 및 Shopping MMLU는 기본적인 e커머스 주석만 제공하며 복잡성을 반영하지 않아 관련성 벤치마크로 널리 채택되지 못했습니다.

LLMs와 시각 언어 모델(VLMs)을 위한 포괄적인 관련성 벤치마크는 다양한 e커머스 데이터를 포함하고 가장 중요한 능력을 평가해야 합니다. 이를 우리는 다음 세 가지 측면으로 합성하였습니다 (그림 1 참조). 1) 지식 및 추론 능력: 관련성을 평가하기 위한 기본 모델 요구 사항을 나타냅니다. 복잡한 e커머스 시나리오는 세계 지식과 추론을 결합하는 추론을 필요로 하며, 기본적인 일치 메커니즘을 초월합니다. 그림 1(a)에서 보듯이 정확한 판단은 모델이 “카피바라는 물고기 토끼와 동의어이다.“라는 지식을 인식하도록 요구하며, 이는 복잡한 케이스를 처리하기 위한 지식 요구 사항을 설명합니다. 2) 다중모달 이해 능력: 고급 능력 요구 사항입니다. 실제 시나리오에서 상품 이미지는 검색 결과에 중요한 역할을 하며 사용자의 인식에 큰 영향을 미칩니다. 또한, 시각 모달은 텍스트 표현을 넘어서는 차별화된 특징을 제공합니다. 그림 1(b)에서 보듯이 텍스트적 특징만으로 충분하지 않은 경우 시각 정보가 중요한 차별화 요소를 제공합니다. 현재 접근 방식은 대부분 LLMs에 의존하나, 장기적으로 보면 VLM 기반의 관련성 모델링은 필수적인 추세입니다. 3) 규칙 준수 능력: 표준화된 관련성 평가의 중요한 기초를 형성합니다. 관련성 평가는 고도로 정교한 규칙 시스템을 기반으로 하며, 이는 도메인 전문가들이 사용자 선호를 종합하여 주관적인 관련성 판단을 객관적이고 측정 가능한 표준화된 프로토콜로 변환합니다. 본질적으로 이것은 일반 지식 시나리오에 대한 보충 사항입니다. 그림 1(c)에서 보듯이 모델은 “사용자의 명시적 의도 없이 중고 상품은 관련성이 없다.“라는 규칙을 준수함으로써 올바른 판단을 내릴 수 있습니다. 현재 LLM 기반 접근법인 LREF와 TaoSR1에서는 규칙 준수가 중요한 능력 요구 사항이며, 훈련 과정에서 특별히 모델링됩니다. 이러한 통찰력을 바탕으로 우리는 e커머스 시나리오에서 모델의 관련성 판단 능력을 평가하는 표준 참조를 제공할 포괄적이고 도전적인 벤치마크를 제안합니다. 또한, 일반 LLM 및 VLM의 지시어 따르기, 세계 지식 활용 및 추론에 대한 e커머스 전용 관점을 제공합니다.

style="width:100.0%" />
RAIR 벤치마크에서 평가되는 세 가지 핵심 모델 능력의 개요.

이러한 중요한 도전 과제를 해결하기 위해 본 논문에서는 규칙에 기반한 관련성 평가 벤치마크인 RAIR를 소개합니다. 그림 [fig:head]에서 보듯이 RAIR의 전체적인 프레임워크는 다음과 같습니다. 우리의 작업은 주로 두 가지 측면을 포함합니다: 첫째, 관련성 평가 작업에 대한 표준화된 정의를 제공합니다. 광범위한 데이터 분석을 기반으로 우리는 관련성을 L1에서 L4까지 점차 차이가 나는 네 단계로 분류합니다. 구체적으로, L1과 L2는 부적합으로 분류되며, L3과 L4는 적합으로 간주됩니다. 다른 관점에서 보면 e커머스 도메인 특성을 기반으로 잠재적인 사용자 질의 요구 사항을 16개의 독립 속성(카테고리 및 브랜드 포함)으로 체계적으로 분류합니다. 이들 속성이 얼마나 잘 충족되는지에 대한 종합적인 평가를 통해 관련성 수준 주석을 결정합니다. 여러 도메인 전문가의 교차 검증을 거쳐 RAIR 내에서 일반화되고 효율적인 평가 프로토콜을 설정하며, 보편적이고 가벼운 평가 규칙 세트를 제공합니다.

둘째, 포괄적이고 도전적인 평가 데이터를 제공합니다. RAIR 벤치마크는 세 부분으로 구성됩니다: 일반 서브셋과 두 개의 도전적인 서브셋입니다. 1) 일반 서브셋. 이 서브셋은 모델의 기본 e커머스 관련성 능력을 평가하기 위해 설계되었습니다. 산업 부문을 교차로 샘플링하고 산업 분포를 기반으로 데이터 비율을 세심하게 조정하여 실제 세계 e커머스 시나리오를 포괄적으로 포착하면서도 도메인 편향성을 완화하는 균형 잡힌 데이터셋을 구성했습니다. 2) 장기 어려움 서브셋. 이 서브셋은 모델의 추론 및 지식 능력의 상한선을 탐색하기 위한 도전적인 실험대입니다. 복잡한 질의에 대한 체계적 샘플링 방법을 사용했습니다. 우선 특수 의도 질의(예: 부정, 추론 종속)와 다중 속성 요구 사항 질의의 분류를 정의하고, 규칙 기반 방법을 사용하여 검색 로그에서 후보자를 추출한 다음 LLM 기반 필터링 파이프라인을 적용하여 가장 도전적인 사례를 유지했습니다. 3) 시각적 중요성 서브셋. 이 서브셋은 모델의 멀티모달 능력을 포괄적으로 평가하기 위한 것입니다. 우리는 시각 관련 키워드 분류를 개발하고 노출 채널을 통해 질의-항목 쌍을 검색하며, 허용 목록을 사용하여 잘못된 매치를 제거했습니다. 샘플은 LLM 기반 파이프라인을 통한 시각적 속성 검증 및 난이도 기반 필터링을 통해 정제되었습니다. 모든 서브셋의 각 인스턴스는 평가 기준과 개인정보 보호에 부합하는 상품 이미지가 동반됩니다.

전체적으로 우리의 주요 기여는 다음과 같습니다:

  1. 관련성 평가 작업에 대한 표준화된 프레임워크를 수립하고, 평가 수준 및 핵심 속성을 정의하며, 종합적인 평가 규칙을 제공하여 객관적이고 정밀한 관련성 평가를 보장합니다.
  2. 대량 후보 풀에서 의도된 샘플을 선별하기 위한 LLM 기반 파이프라인을 생성하여 장기 어려움 서브셋과 시각적 중요성 서브셋을 형성했습니다.
  3. 각 데이터 항목에 이미지와 주석 규칙을 갖춘 한국어 데이터셋을 제안하며, 이를 통해 산업에서의 관련성 평가 벤치마크를 제공하고 현재 LLM 및 VLM 평가 프레임워크에 강력한 보조 도구를 제공합니다.
  4. RAIR에서 다양한 오픈 소스 및 클로즈드 소스 모델을 사용하여 실험을 수행하고 분석했습니다. 실험 결과는 RAIR이 충분히 도전적이고 구별력을 갖추고 있음을 보여줍니다.

관련 연구

e커머스 관련성 방법

LLM 시대 이전에는 관련성 모델링은 두 가지 유형의 인코더 기반 아키텍처에 크게 의존했습니다: 표현 기반 및 상호작용 기반 모델. 표현 기반 모델은 질의와 항목을 각각 별도로 인코딩하는 이중 타워 구조를 사용하여 효율적인 관련성 계산이 가능합니다. Sentence-BERT는 질의와 항목에 대한 별도의 인코딩을 생성하고 비교하기 위해 시메즈 BERT 아키텍처를 사용합니다. PolyEncoder는 훈련 가능한 벡터를 사용하여 질의 임베딩을 다양한 표현 공간으로 투영하여 다양한 전역 특성을 포착합니다. DeepBoW는 질의와 항목에 대한 어휘 크기 임베딩을 생성하여 의미적 세밀도와 해석 가능성 높임니다. 상호작용 기반 모델은 질의-항목 간의 조기에 상호 작용이 가능한 단일 타워 아키텍처를 사용하여 성능 향상에 이릅니다. 이를 통해 BERT 기반 방법 중에서 질의와 항목을 결합한 후 융합된 표현을 추출하는 방식이 최고 수준의 성과를 달성했습니다. 최근 LLMs은 광범위한 내재 지식을 갖추어 다양한 작업에서 탁월한 결과를 보였습니다. Mehrdad et al.은 처음으로 7B 디코더만 있는 LLM을 관련성 평가에 사용하여 길게 떨어진 표본에서 개선된 일반화를 보여주었습니다. ELLM은 먼저 질의-항목 속성을 추출한 다음 관련성 결정을 내리도록 LLM의 연쇄적 사고 능력을 활용하며, 다차원 지식 증류를 통해 작은 모델을 최적화합니다. LREF는 GPT 생성된 연쇄적 사고 추론을 사용하여 차별적인 규칙을 합성하고 DPO를 사용하여 편향성을 제거하며, TaoSR1은 지식 주입을 통해 관련성 규칙을 통합한 후 GRPO 알고리즘을 사용하여 RLVR로 강화합니다. 관련성에 중점을 둔 LLM의 발전은 기본적인 분류에서 규칙 기반 지식 통합으로의 변화를 반영합니다.

e커머스 관련성 벤치마크

ECinstruct는 첫 번째 e커머스 지시어 데이터셋을 도입했으며, EcomGPT는 ChatGPT를 사용하여 기본적인 e커머스 데이터 유형 기반의 원자적 작업을 구축했습니다. eCeLLM은 속성 추출, 상품 매칭, 감성 분석 및 순차적 추천 등 다양한 10가지 작업을 포함합니다. Shopping MMLU는 쇼핑 개념 이해와 지식 추론을 포함한 네 가지 핵심 작업을 통해 LLMs의 e커머스 성능을 평가합니다. Amazon-M2은 개념 이해, 지식 추론, 행동 일관성 및 다국어 처리를 포함한 네 가지 쇼핑 관련 능력을 평가하는 LLMs에 대한 벤치마크입니다. 그러나 이러한 작업들은 특정 관련성 평가 프레임워크보다 일반적인 e커머스 이해 벤치마크입니다. EcomMMMU는 시각적 데이터의 가치를 보여주며 우리의 접근 방식을 영감을 주었습니다. Shopping Queries는 관련성 평가 데이터셋을 제공하지만, 판단 규칙과 시각적 자료가 부족하고 복잡도가 제한되어 실제 세계 도전 과제를 반영하지 못합니다. 이는 포괄적이고 견고한 관련성 평가 벤치마크에 대한 지속적인 필요성을 강조합니다.

style="width:100.0%" />
RAIR의 관련성 규칙 프레임워크

벤치마크 구축

이 섹션에서는 RAIR의 구축 방법론에 대한 종합적인 개요를 제공합니다 (그림 3 참조). 3.1절에서는 관련성 작업 정의 및 해당 규칙과 유래 과정에 대한 자세한 설명을 제시합니다. 3.2, 3.3, 및 3.4절은 RAIR의 일반 서브셋, 장기 어려움 서브셋, 그리고 시각적 중요성 서브셋 각각의 구축 파이프라인을 상세하게 설명합니다. 3.5절에서는 각 데이터 항목을 해당 평가 규칙과 어떻게 정렬하는지 설명합니다. RAIR 데이터는 타오바오 사용자 검색 로그에서 유래하며 전문적인 관련성 주석 및 품질 보증을 거쳤습니다.

style="width:100.0%" />
RAIR 벤치마크 구축 과정, 규칙 시스템 구성과 일반 서브셋, 장기 어려움 서브셋, 그리고 시각적 중요성 서브셋의 구축 파이프라인 포함.

작업 정의

관련성 평가

e커머스에서 표준적인 관련성 평가 작업은 주어진 질의-항목 쌍 $(Q, I)$에 대해 미세한 수준의 관련성 레이블 $`y`$를 예측하는 것입니다. 레이블 $`y`$는 불일치에서 완벽하게 일치하는 정도까지 나타내는 이산적이고 순서화된 단계 집합, 예를 들어 $\{L1, L2, L3, L4\}$에서 선택됩니다. 형식적으로, 이 작업은 함수 $`f: (Q, I) \rightarrow y`$를 학습하는 것입니다.

규칙 기반 관련성 평가

실제 적용에서는 관련성 판단이 단순한 의미적 유사성을 넘어서 주관적인 평가를 포함하기도 합니다. 이를 명확히 하기 위해 객관적이고 측정 가능하며 표준화된 평가 프레임워크를 제공하기 위해 명시적인 지침 집합인 규칙을 도입합니다.

이 규칙은 일반 세계 지식의 합리적인 보충으로, 주관적인 기준을 해석하고 일관된 판단을 보장하는 데 설계되었습니다. 단기적인 비즈니스 트릭이 아니라 다양한 e커머스 부문에서 광범위한 장기적인 사례 연구를 통해 정제되고 일반화 가능한 원칙입니다. 그 주요 기능은 질의와 항목 설명에 나타나는 일반적인 주관적 용어의 해석을 표준화하는 것입니다. 예를 들어 규칙은 ‘최신 상품’을 특정 시간 범위(예: 검색 날짜로부터 1년 이내 출시)로 정의하거나, 가격 불일치를 (예: 10% 이상 차이) 양화할 수 있으며 연령 관련 용어(‘청소년’, ‘소녀’, ‘아이’)에 대한 명확한 정의를 제공합니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키