스페인 공공 조달 10년, BOE 데이터로 본 구조적 통찰

스페인 공공 조달 10년, BOE 데이터로 본 구조적 통찰
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 스페인 공식 국가 관보(BOE)에서 2014년부터 2024년까지 10년간의 공공 조달 발표를 추출하여 구조화된 오픈 데이터셋을 구축하고 분석했습니다. 약 97,000건의 계약 데이터를 정제하여 공개하며, 계약 가치의 왜곡된 분포, 지역 및 부문별 집중 현상, 그리고 수혜 업체의 계층화된 시장 구조를 실증적으로 규명합니다. 재현 가능한 추출 파이프라인과 함께 데이터를 공개함으로써 스페인 공공 조달에 대한 투명한 연구와 증거 기반 정책 평가의 기반을 마련했습니다.

상세 분석

본 연구의 기술적 핵심은 반정형 HTML 형식의 BOE 공고를 완전히 자동화된 ETL(추출-변환-적재) 파이프라인을 통해 기계 가독성이 높은 구조화 데이터로 변환한 점에 있습니다. Python 기반 파이프라인은 모듈화되어 있으며, HTTP 요청 관리, 필드별 파싱, 데이터 정합성 검증 등 견고한 웹 스크레이핑 관행을 따릅니다. 결과 데이터셋은 15개 변수를 포함하며, 개방형 계약 데이터 표준(OCDS)에 맞춰 정렬되어 국제적 상호운용성을 보장합니다.

데이터 정제 과정에서 주목할 점은 두 가지 금액 필드(추정 가치, 수주 가치)의 상호 배타적인 결측치 패턴을 식별한 것입니다. 이는 입찰 진행 단계(발표 vs 수주)에 따른 행정적 생명주기를 반영한 현상으로, 단순한 데이터 누락이 아닌 도메인 지식이 필요한 처리 사례를 보여줍니다. 또한, CPV 코드 정규화, 법인명 중복 제거 등의 작업을 통해 분석 가능한 데이터 품질을 확보했습니다.

분석 측면에서 연구자는 세 가지 차원의 방법론을 적용했습니다. 첫째, 지도 학습으로 다중 선형 회귀 분석을 수행해 수주 금액의 결정 요인을 탐구했으나, 계약 기간, 입찰자 수 등 핵심 예측 변수의 부재로 설명력(R²=0.014)이 낮게 나타났습니다. 이는 공공 조달 데이터의 복잡성과 반정형 공고의 정보 한계를 드러내는 결과입니다. 둘째, 비지도 학습인 K-평균 클러스터링을 통해 16,502개 수혜 업체를 ‘고가치 운영사’, ‘표준 운영사’, ‘소규모 운영사’의 3개 계층으로 세분화했습니다. 이는 공공 시장이 소수의 대형 업체에 의해 주도되는 피라미드 구조임을 보여주는 중요한 통찰입니다. 셋째, 비모수 통계 검정(Wilcoxon-Mann-Whitney)을 통해 ‘공사’와 ‘서비스’ 계약 간 수주 금액 분포가 통계적으로 유의미하게 다르다는 것을 입증했습니다. 공사 계약의 중앙값이 서비스 계약보다 약 2.7배 높은 점은 사회간접자본 투자의 자본 집약적 특성을 반영합니다.

이러한 분석은 단순한 기술적 시연을 넘어, 오픈 데이터를 활용한 행정 데이터 과학의 실질적 적용 사례를 제시합니다. 특히, 데이터 추출 파이프라인과 분석 코드를 모두 공개함으로써 재현 가능한 연구의 모범을 보였으며, 스페인 공공 조달 시스템의 구조적 특성에 대한 정량적 증거를 제시함으로써 정책 개선 논의에 실질적인 기여를 합니다.


댓글 및 학술 토론

Loading comments...

의견 남기기