실시간 산업 웹 데이터셋을 활용한 회귀분석과 성장 요인 예측
본 논문은 데이터 마이닝 도구를 이용해 실시간 산업 웹 데이터를 수집·전처리한 뒤, 다중 회귀분석을 수행하여 주요 영향 변수와 향후 매출·시장 성장 요인을 예측한다. 모델 성능은 결정계수(R²)와 평균제곱오차(RMSE)로 평가했으며, 결과는 기업 전략 수립에 실질적인 인사이트를 제공한다.
초록
본 논문은 데이터 마이닝 도구를 이용해 실시간 산업 웹 데이터를 수집·전처리한 뒤, 다중 회귀분석을 수행하여 주요 영향 변수와 향후 매출·시장 성장 요인을 예측한다. 모델 성능은 결정계수(R²)와 평균제곱오차(RMSE)로 평가했으며, 결과는 기업 전략 수립에 실질적인 인사이트를 제공한다.
상세 요약
본 연구는 먼저 기업의 온라인 활동 로그와 거래 기록을 포함하는 실시간 웹 데이터셋을 구축하였다. 데이터는 2023년 1월부터 2024년 6월까지 18개월간 수집되었으며, 총 250,000건의 세션 기록과 12개의 파생 변수가 포함된다. 주요 변수는 방문자 수(VISITS), 페이지 뷰(PAGEVIEWS), 평균 체류 시간(DURATION), 전환율(CONVERSION_RATE), 광고 클릭수(AD_CLICKS), 제품 카테고리별 매출(SALES_CAT_A~D) 등이다.
전처리 단계에서는 결측값을 평균 대체법으로 보완하고, 이상치 탐지를 위해 IQR 방식을 적용하였다. 범주형 변수는 원-핫 인코딩을, 연속형 변수는 정규화를 수행해 모델 학습에 적합하도록 변환하였다. 또한 시계열 특성을 반영하기 위해 lag 변수(전월 매출, 전주 방문자 수)를 추가함으로써 자기상관성을 최소화하였다.
회귀분석에는 세 가지 모델을 비교하였다. 첫 번째는 전통적인 다중 선형 회귀(Multiple Linear Regression, MLR)이며, 변수 선택은 단계별 전진 선택(stepwise forward)과 후진 제거(stepwise backward)를 병행해 최적의 설명력을 갖는 서브셋을 도출하였다. 두 번째는 릿지 회귀(Ridge Regression)와 라쏘 회귀(Lasso Regression)를 활용해 다중공선성을 완화하고 변수 압축 효과를 검증하였다. 세 번째는 비선형 관계를 포착하기 위해 다항 회귀(Polynomial Regression, 차수 2)와 서포트 벡터 회귀(SVR)를 적용하였다.
모델 평가는 10‑fold 교차 검증을 통해 수행했으며, 주요 지표는 결정계수(R²), 평균제곱오차(RMSE), 평균절대오차(MAE)이다. MLR은 R²=0.78, RMSE=1.42 (단위: 백만 달러)로 기본적인 설명력을 보였으나, 변수 간 상관관계가 높은 점이 한계로 지적되었다. 릿지 회귀는 λ=0.1에서 R²=0.81, RMSE=1.35로 약간의 개선을 보였으며, 라쏘 회귀는 불필요한 변수를 4개 제거해 모델 간소화에 성공했지만 R²는 0.79에 머물렀다. 다항 회귀는 차수 2에서 R²=0.84, RMSE=1.22를 기록했으며, 특히 광고 클릭수와 전환율 사이의 비선형 상호작용이 매출 예측에 큰 영향을 미쳤음을 확인했다. SVR은 RBF 커널을 사용했을 때 R²=0.83, RMSE=1.25로 좋은 성능을 보였지만, 해석 가능성이 낮아 실무 적용에 제약이 있었다.
변수 중요도 분석 결과, 방문자 수(VISITS)와 전환율(CONVERSION_RATE)은 가장 높은 회귀 계수를 갖는 핵심 요인으로 나타났으며, 광고 클릭수(AD_CLICKS)와 페이지 뷰(PAGEVIEWS)의 상호작용 항이 매출 변동을 설명하는 데 크게 기여했다. 또한, 제품 카테고리별 매출 중 CAT_B와 CAT_D가 계절성 패턴을 보이며, 이를 고려한 시계열 회귀 모델이 향후 예측 정확도를 높일 수 있음을 제시한다.
한계점으로는 데이터가 특정 산업(예: 전자상거래)으로 제한되어 있어 일반화 가능성이 낮으며, 실시간 데이터 스트리밍 환경에서 모델 재학습 주기가 충분히 짧지 않아 최신 트렌드 반영에 시간이 소요된다는 점을 들었다. 향후 연구에서는 강화학습 기반의 온라인 학습 모델과 딥러닝 기반 시계열 예측 모델을 도입해 실시간 의사결정 지원 시스템을 구축하는 방향을 제안한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...