스마트시티 서비스를 위한 Km4City 온톨로지 구축과 데이터 수집·정제

스마트시티 서비스를 위한 Km4City 온톨로지 구축과 데이터 수집·정제

초록

본 논문은 지방자치단체와 민간에서 제공되는 방대한 정적·동적 데이터를 Km4City라는 스마트시티 전용 온톨로지에 매핑하고, RDF 스토어에 저장해 SPARQL 기반 서비스 제공이 가능하도록 하는 데이터 수집·정제·연계 시스템을 제안한다. 온톨로지 설계 과정, 데이터 파이프라인, 정합성 검증·알고리즘 비교 평가 등을 상세히 기술하고, 실제 도로 그래프·교통 센서·서비스 정보 등을 활용한 활용 사례를 제시한다.

상세 분석

이 논문은 스마트시티 분야에서 가장 시급한 문제 중 하나인 ‘데이터 이기종성’과 ‘시맨틱 인터옵러빌리티’를 해결하기 위해 두 축으로 접근한다. 첫 번째 축은 Km4City 온톨로지의 설계·구축이다. 기존 연구들이 교통, 환경, 행정 등 도메인별 온톨로지를 별도로 제시한 반면, 저자들은 ‘도로 그래프’, ‘도로 위 서비스’, ‘교통 센서’, ‘실시간 교통 흐름’ 등을 하나의 상위 개념 구조에 통합하였다. 이를 위해 상위 개념으로 CityEntity, SpatialFeature, Service, Sensor, Observation 등을 정의하고, 각각에 대한 속성(예: 좌표, 운영시간, 센서 유형)과 관계(예: ‘locatedOn’, ‘monitoredBy’)를 명시하였다. 특히, 공간 관계를 표현하기 위해 WGS84 좌표 체계와 GeoSPARQL 표준을 채택함으로써 GIS 시스템과의 연계성을 확보했다.

두 번째 축은 데이터 수집·정제·연계 파이프라인이다. 저자들은 데이터 소스를 ‘공공 오픈 데이터 포털’, ‘민간 API’, ‘IoT 스트리밍’ 등으로 구분하고, 각각에 맞는 크롤러·ETL·스트림 프로세서를 구현했다. 정적 데이터(예: 도로 네트워크, 시설물 목록)는 배치 방식으로 주기적으로 수집하고, 동적 데이터(예: 실시간 교통 센서값)는 Apache Kafka 기반의 스트림 처리 엔진을 통해 실시간으로 ingest한다. 수집된 원시 데이터는 스키마 매핑 레이어에서 Km4City 온톨로지 스키마와 매핑되며, 이 과정에서 데이터 정규화, 중복 제거, 형식 변환이 수행된다.

특히 논문은 데이터 정합성 검증·재조정 알고리즘에 큰 비중을 둔다. 저자들은 ‘주소 문자열 매칭’, ‘좌표 근접도 기반 클러스터링’, ‘엔터티 링크드 데이터(LOD) 활용’ 등 세 가지 알고리즘을 설계하고, 정밀도·재현율·F1 점수 기준으로 비교 평가하였다. 결과적으로 좌표 근접도 기반 클러스터링이 가장 높은 정밀도(0.94)를 보였으며, 주소 문자열 매칭은 다국어 표기 차이로 인해 낮은 성능을 보였다. 또한, 검증 단계에서 SHACL(Shapes Constraint Language)를 이용해 온톨로지 규칙(예: ‘Sensor must have a location’, ‘Service must be linked to a RoadSegment’)을 자동 검사하고, 위반 사례는 로그와 함께 인간 검토자에게 알림한다.

데이터가 RDF 형태로 변환된 후에는 Apache Jena Fuseki 기반의 트리플 스토어에 적재된다. 스토어는 SPARQL 1.1 쿼리 엔진을 제공하며, 복합적인 공간·시맨틱 질의를 지원한다. 예를 들어, “특정 구역 내에 위치한 전기차 충전소와 인접한 교통 센서의 실시간 혼잡도”와 같은 질의를 한 번에 수행할 수 있다. 이를 바탕으로 저자들은 공공 행정용 대시보드, 민간 물류 최적화 서비스, 관광 안내 챗봇 등 세 가지 시범 애플리케이션을 구현하고, 실제 운영 데이터를 통해 응답 시간(평균 150 ms)과 확장성(월 10 억 트리플 저장) 등을 검증하였다.

전체적으로 이 논문은 온톨로지 설계와 데이터 파이프라인을 통합적으로 다루는 프레임워크를 제시함으로써, 스마트시티 데이터 통합의 기술적 난관을 실질적으로 낮춘다. 특히, 정합성 검증을 자동화하고, SHACL 기반 규칙 검증을 도입한 점은 데이터 품질 보증 측면에서 큰 의의를 가진다. 다만, 현재 구현은 특정 도시(이탈리아 토리노)를 대상으로 한 파일럿이므로, 다른 국가·문화권에서의 온톨로지 확장성 및 다국어 주소 매칭 성능에 대한 추가 연구가 필요하다.