스트리밍 회귀에서 불균형 데이터 처리를 위한 Hoeffding 트리 개선

본 논문은 연속적인 데이터 스트림에서 발생하는 불균형 회귀 문제를 해결하기 위해 두 가지 최신 기법을 Hoeffding 트리와 결합한다. 첫째, 커널 밀도 추정(KDE)을 텔레스코핑 방식으로 스트리밍 환경에 적용해 라벨 분포를 부드럽게 만든다. 둘째, 계층적 수축(Hierarchical Shrinkage, HS)을 증분 결정 트리에 통합해 예측값에 사후 정규화를 부여한다. 실험 결과, KDE는 스트림 초기 단계에서 예측 정확도를 현저히 향상시키…

저자: Pantia-Marina Alchirch, Dimitrios I. Diochnos

본 논문은 연속적인 데이터 스트림에서 회귀 작업을 수행할 때 발생하는 라벨 불균형 문제를 해결하기 위해 두 가지 최신 기법을 Hoeffding 트리 기반의 증분 결정 트리와 결합한다. 첫 번째는 커널 밀도 추정(KDE)이며, 기존 연구에서는 배치 학습 환경에서 라벨 분포를 부드럽게 하여 예측 정확도를 높이는 데 성공했다. 저자들은 이를 스트리밍 환경에 맞게 텔레스코핑 방식으로 재구성하였다. 텔레스코핑은 새로운 샘플이 들어올 때마다 기존 KDE 추정값에 현재 샘플의 커널 기여를 가중 평균 형태로 추가하는 방법으로, 수식 (2)에서 제시된 바와 같이 ˆfₙ(q)=ˆfₙ₋₁(q)+1/n·K_h(q−zₙ)−ˆfₙ₋₁(q) 형태로 구현된다. 이 방식은 O(1) 연산으로 실시간 업데이트가 가능하며, 윈도우 크기, 밴드폭 h, 커널 종류(가우시안, 에페네치코프)와 같은 하이퍼파라미터를 튜닝함으로써 라벨이 희소한 구간에서도 의미 있는 밀도 추정을 제공한다. 두 번째는 계층적 수축(Hierarchical Shrinkage, HS)이다. HS는 트리의 각 노드가 최종 예측에 일정 비율로 기여하도록 가중치를 부여하는 사후 정규화 기법으로, λ라는 하이퍼파라미터와 노드 샘플 수 N(t)를 이용해 가중치를 조정한다(식 3). 논문에서는 이 방식을 증분 Hoeffding 트리와 Hoeffding Adaptive Tree(HA‑T)에 그대로 적용하였다. 각 노드에서 N(t)와 평균 응답 E

스트리밍 회귀에서 불균형 데이터 처리를 위한 Hoeffding 트리 개선

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기