복합표본을 이용한 전력 부하곡선 L1 중앙값 추정
초록
본 논문은 전력 소비 패턴을 나타내는 부하곡선의 평균값이 이상치에 민감하다는 문제를 해결하기 위해, 함수형 데이터의 L₁-중앙값을 추정하는 새로운 방법을 제안한다. 대규모 데이터에서 전체를 저장하지 않고도 정확한 중앙값을 얻기 위해 복합표본 설계와 보조변수를 활용한 추정량을 개발하고, 계층화와 선형화 기법을 통해 효율성을 검증한다.
상세 분석
이 연구는 전력 소비 데이터와 같이 연속적인 시간축을 갖는 함수형 변수에 대해 전통적인 점별 평균이 이상치에 취약하다는 점을 지적한다. 이를 보완하기 위해 L₁-중앙값, 즉 전체 함수 집합에서 최소 절대 거리합을 갖는 함수(중앙곡선)를 목표 추정량으로 설정한다. L₁-중앙값은 M-추정량의 일종으로, Huber 손실과 유사한 로버스트 특성을 가지며, 특히 고전적인 평균이 큰 편차를 가진 소수의 관측값에 의해 왜곡되는 상황에서 안정적인 대안을 제공한다.
함수형 데이터가 수천에서 수십만 건에 달할 경우, 전체 데이터를 메모리에 적재하고 직접 계산하는 것은 현실적으로 불가능하다. 따라서 저자들은 복합표본(survey sampling) 이론을 차용하여, 전체 모집단을 직접 관찰하지 않고도 중앙값을 추정할 수 있는 프레임워크를 구축한다. 구체적으로는 (i) 단순 무작위 추출(SRSWOR), (ii) 비례 할당 추출, (iii) 계층화 추출 등 다양한 표본 설계 방식을 고려하고, 각 설계에 맞는 Horvitz–Thompson 가중치를 적용한 추정량을 정의한다.
중심값 추정에 필요한 선형화(linearization) 과정은 핵심적인 기법이다. L₁-중앙값은 비선형 함수이므로, 표본 설계에 따른 분산 추정이 직접적으로 어려운데, 저자들은 영향을 미치는 선형화 변수(인플루언스 함수)를 도출한다. 이 변수는 각 관측 함수가 중앙값에 미치는 기여도를 나타내며, 이를 이용해 복합표본의 분산을 근사한다. 특히, 선형화 변수 자체가 함수형이므로, 이를 기반으로 계층화(stratification) 기준을 정의한다. 즉, 선형화 변수의 평균값을 기준으로 모집단을 여러 층으로 나누어, 각 층 내 변동성을 최소화하고 전체 추정 효율을 극대화한다.
보조변수(auxiliary information)를 활용한 개선 추정량도 제시된다. 전력 데이터에서는 고객의 계약 용량, 계절, 지역 등 다양한 외생 변수가 존재한다. 이러한 변수와 중앙값 추정량 사이의 회귀 관계를 이용해 차분 추정(difference estimator) 혹은 회귀 추정(regression estimator)을 적용함으로써, 표본 크기를 크게 늘리지 않아도 추정 정확도를 크게 향상시킬 수 있다. 실험에서는 이러한 보조변수 기반 추정이 단순 SRSWOR 대비 평균 제곱 오차(MSE)를 30% 이상 감소시키는 결과를 보였다.
마지막으로, 저자들은 제안된 방법을 실제 전력 부하곡선 데이터에 적용해 검증한다. 테스트 모집단은 수십만 건의 15분 간격 전력 사용량을 포함하며, 이상치가 포함된 상황에서도 L₁-중앙값은 평균 프로파일에 비해 훨씬 안정적인 형태를 유지한다. 또한, 계층화 표본 설계와 보조변수 회귀 추정을 결합한 경우, 표본 크기 5% 수준에서도 전체 모집단 중앙값과의 차이가 0.02 이하로 매우 낮은 편차를 보였다. 이러한 결과는 대규모 스마트 그리드 데이터 분석에서 저장·연산 비용을 크게 절감하면서도 신뢰성 있는 통계량을 제공할 수 있음을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기