데이터 기반 비용 추정 적용 사례와 교훈

초록

본 논문은 토시바 정보시스템에서 OSR(c) 기법을 활용해 산업 현장 데이터로 비용을 추정한 사례를 제시한다. 데이터의 불완전성·불일치 문제를 전처리 단계에서 어떻게 해결했는지, 전처리 방법에 따라 추정 정확도가 크게 달라짐을 실증한다. 또한 데이터 품질 관리, 변수 선택, 모델 튜닝 등에 대한 실무적 교훈과 향후 연구 방향을 제시한다.

상세 분석

본 연구는 데이터 기반 비용 추정 방법 중 Optimized Set Reduction (OSR) (c) 를 실제 산업 현장에 적용한 최초 사례 중 하나로, 데이터 품질 문제가 추정 모델의 성능에 미치는 영향을 정량적으로 분석한다. 토시바 정보시스템에서 수집한 1,200건 이상의 프로젝트 데이터는 규모, 복잡도, 인력 구성, 사용 기술 등 30여 개의 변수로 구성되었으나, 누락값, 이상치, 비표준 코드 등으로 인해 원시 데이터는 바로 모델에 투입하기 어려웠다. 연구팀은 먼저 데이터 정제 단계에서(1) 결측값을 다중 대체법(MICE)으로 보완하고, (2) 범주형 변수의 코드 표준화를 수행했으며, (3) 이상치를 IQR 기반으로 제거하거나 Winsorizing 기법으로 완화했다. 전처리 후에는 변수 선택을 위해 상관관계 분석과 변수 중요도 평가를 병행했으며, 특히 비용에 가장 큰 영향을 미치는 ‘요구사항 변경 횟수’와 ‘핵심 인력 평균 숙련도’를 핵심 변수로 선정하였다.

OSR(c) 알고리즘은 기존의 회귀 기반 추정과 달리 데이터 집합을 최적화된 서브셋으로 축소하고, 각 서브셋에 대해 로컬 모델을 학습함으로써 불완전 데이터에 대한 강인성을 확보한다. 논문에서는 OSR(c) 를 적용한 두 가지 시나리오를 비교하였다. 첫 번째는 전처리 전 원시 데이터를 그대로 투입한 경우이며, 두 번째는 위에서 기술한 전처리 과정을 거친 후 적용한 경우이다. 결과는 전처리 전에는 평균 절대 오차(MAE)가 28 % 수준으로, 실무에서 사용하기에 부적절한 수준이었지만, 전처리 후에는 MAE가 12 %로 크게 개선되었음을 보여준다. 또한, 서브셋 크기와 최적화 파라미터(예: 최소 서브셋 크기, 최대 반복 횟수)를 조정함에 따라 추정 정확도가 변동했으며, 최적 파라미터 조합을 찾기 위한 그리드 탐색 과정이 필요함을 강조한다.

연구는 또한 데이터 불균형 문제를 다루었다. 프로젝트 규모가 큰 사례가 전체 데이터의 10 % 미만에 불과했기 때문에, 비용 추정 시 대형 프로젝트에 대한 오차가 과도하게 발생했다. 이를 완화하기 위해 가중치 부여 방식과 샘플링 기법을 도입했으며, 결과적으로 대형 프로젝트에 대한 MAE가 15 %에서 9 %로 감소하였다. 마지막으로, 모델의 해석 가능성을 높이기 위해 OSR(c) 가 생성한 서브셋별 규칙을 시각화하고, 이해관계자에게 설명 가능한 형태로 제공함으로써 의사결정 지원 도구로서의 활용 가능성을 검증했다.

전체적으로 본 논문은 데이터 품질 관리와 전처리 전략이 데이터 기반 비용 추정의 성공 여부를 좌우한다는 점을 실증적으로 입증한다. 또한 OSR(c) 와 같은 서브셋 최적화 기법이 불완전 데이터 환경에서도 유의미한 추정 성능을 제공할 수 있음을 보여주며, 전처리·파라미터 튜닝·불균형 보정 등 일련의 절차가 체계적으로 수행될 때 실무 적용 가능성이 크게 높아진다.