텍스트 기반 데이터 제품 가격 예측과 해석적 분석

초록

데이터 제품의 합리적인 가격 책정은 데이터 거래 플랫폼이 매출을 극대화하고 데이터 거래 시장의 성장을 촉진하는 데 핵심이다. 데이터 제품 설명 텍스트에 내재된 의미는 가격 책정에 중요한 가치를 제공하지만 아직 충분히 탐구되지 않았다. 본 연구는 다섯 가지 대표적인 텍스트 표현 기법을 이용해 데이터 제품의 서술 텍스트를 인코딩하고, 선형 회귀, 신경망, 결정 트리, 서포트 벡터 머신, 랜덤 포레스트, XGBoost 등 여섯 가지 머신러닝 모델을 활용해 가격을 예측한다. 연속적인 가격을 예측하는 회귀 과제와 가격을 순서형 카테고리로 구분하는 분류 과제로 구성하였다. 또한 mRMR 특징 선택과 SHAP 기반 해석 기법을 통해 특징 중요도를 분석하였다. AWA Data Exchange의 실증 데이터를 바탕으로, 연속 가격 예측에서는 의미적 유사성을 포착하는 Word2Vec가 가장 우수한 성능을 보였으며, 가격 구간 분류에서는 Bag‑of‑Words와 TF‑IDF와 같은 단순 표현이 더 높은 정확도를 나타냈다. SHAP 분석 결과, 의료·인구통계와 관련된 의미적 특징은 가격 상승에, 날씨·환경 관련 특징은 가격 하락에 영향을 미치는 것으로 드러났다. 본 분석 프레임워크는 가격 모델의 해석 가능성을 크게 향상시킨다.

상세 요약

본 논문은 데이터 제품의 가격 결정 과정에서 텍스트 정보가 차지하는 역할을 체계적으로 검증하고, 이를 기반으로 실용적인 예측 모델과 해석 도구를 제시한다. 먼저 텍스트 표현 기법으로는 Bag‑of‑Words, TF‑IDF, Word2Vec, Doc2Vec, 그리고 최신 Transformer 기반 임베딩(예: BERT) 등 다섯 가지를 선택하였다. 이들 기법은 각각 단어 빈도, 가중치 부여, 의미적 유사성, 문서 수준의 컨텍스트 정보를 다르게 포착한다는 점에서 상호 보완적이다.

머신러닝 모델은 전통적인 선형 회귀부터 시작해 비선형성을 포착하는 신경망, 트리 기반 모델, 그리고 부스팅 기법까지 폭넓게 구성하였다. 특히 XGBoost와 랜덤 포레스트는 변수 간 복잡한 상호작용을 자동으로 학습하는 능력이 있어 텍스트 임베딩과 결합했을 때 높은 예측력을 기대할 수 있다.

연구 설계는 두 가지 과제로 나뉜다. 첫 번째는 연속적인 가격을 직접 예측하는 회귀 과제로, 여기서는 평균 절대 오차(MAE)와 평균 제곱근 오차(RMSE)를 주요 평가지표로 사용하였다. 두 번째는 가격을 사전에 정의된 구간(예: 저가, 중가, 고가)으로 분류하는 작업으로, 정확도와 F1‑score를 활용하였다. 두 과제 모두 교차 검증을 통해 과적합을 방지하고 모델의 일반화 성능을 검증하였다.

특징 중요도 분석에는 두 단계가 적용되었다. 먼저 mRMR(Maximum Relevance Minimum Redundancy) 방법으로 중복성을 최소화하면서 가격과 높은 상관성을 보이는 텍스트 특징을 선별하였다. 이후 SHAP(Shapley Additive exPlanations) 값을 계산해 각 특징이 예측값에 미치는 기여도를 정량화하였다. 이 과정에서 의료·인구통계 관련 키워드(예: “환자 기록”, “인구 분포”)는 양의 SHAP 값을 보여 가격 상승 요인으로 작용했으며, 반면 날씨·환경 관련 키워드(예: “기상 데이터”, “대기 오염”)는 음의 SHAP 값을 나타내어 가격을 낮추는 요인으로 해석되었다.

실험 결과는 흥미로운 패턴을 드러낸다. 의미적 유사성을 학습하는 Word2Vec은 연속 가격 회귀에서 가장 낮은 RMSE를 기록했으며, 이는 가격이 텍스트 내 미묘한 의미 차이에 민감하게 반응한다는 점을 시사한다. 반면 가격 구간 분류에서는 의미적 복잡성을 과도하게 반영하는 임베딩보다 단순 빈도 기반 표현이 더 높은 정확도를 보였다. 이는 분류 과제가 가격 차이를 크게 구분하는 것이 아니라 구간 경계에 초점을 맞추기 때문에, 고차원 의미 정보보다 명확한 키워드 존재 여부가 더 결정적인 역할을 함을 의미한다.

본 연구는 데이터 거래 플랫폼이 가격 책정 알고리즘에 텍스트 분석을 통합할 때, 목표 과제에 맞는 텍스트 표현과 모델을 선택해야 함을 강조한다. 또한 SHAP 기반 해석을 통해 정책 입안자와 판매자는 어떤 주제의 데이터가 프리미엄을 형성하는지 직관적으로 파악할 수 있다. 한계점으로는 데이터셋이 특정 거래소(AWA Data Exchange)에 국한되어 있어 일반화 가능성을 추가적인 도메인(예: 금융, 제조)에서 검증할 필요가 있다. 향후 연구에서는 멀티모달(텍스트 + 메타데이터) 접근법과 시계열 가격 변동을 고려한 동적 모델링을 탐색함으로써 더욱 정교한 가격 예측 체계를 구축할 수 있을 것이다.

초록

상세 요약

📜 논문 원문 (영문)