관광 분야에서 Schema.org 활용 현황 분석 2013에서 2016까지
초록
본 논문은 2013년부터 2016년까지 Web Data Commons 데이터셋을 활용해 관광 관련 12개 클래스에 대한 Schema.org 어노테이션의 양과 질을 정량·정성적으로 분석한다. 전체 어노테이션 수는 지속적으로 증가했으며, 초기에는 미국이 절대 다수를 차지했지만 2016년에 비중이 급감한다. 호텔 클래스에서 주소·위치 정보가 가장 잘 적용됐으며, 기타 클래스는 70% 이하의 적용률을 보인다. 2016년에는 낮은 평점(1~2점) 비중이 상승했으며, 2016년 8‑10월에 도입된 호텔 확장 클래스는 제한적인 사용만 확인되었다.
상세 분석
본 연구는 Web Data Commons(WDC)에서 제공하는 N‑Quads 형식의 구조화 데이터(2013‑2016년)를 트리플 스토어에 적재한 뒤, SPARQL 2 쿼리를 이용해 12개의 관광 관련 타입(Airport, Event, Hotel 등)과 그 속성의 등장 빈도를 집계하였다. 데이터 전처리 단계에서는 Entity Reconciliation(ER)과 Reverse Geocoding(RG)을 결합해 주소 → 국가 매핑 정확도를 높였으며, Levenshtein 거리 기반 k‑Nearest Neighbor(kNN) 알고리즘을 활용해 다국어 국가명 정규화를 수행하였다. 이러한 전처리 덕분에 국가별 어노테이션 비중을 신뢰성 있게 비교할 수 있었다.
양적 분석 결과, 전체 트리플 수는 2013년 12억, 2014년 6.2억, 2015년 11억, 2016년 21억으로 급증했으며, 이는 전반적인 Schema.org 채택이 가속화되고 있음을 시사한다. 특히 Hotel 타입은 전체 어노테이션 중 가장 큰 비중을 차지했으며, 2013‑2015년에는 미국 비중이 79% → 72%로 서서히 감소했지만 2016년에는 28.4%로 급격히 떨어졌다. 이는 미국 외 국가들의 채택이 눈에 띄게 늘어났음을 의미한다.
속성 수준에서는 address와 geo → country 정보가 Hotel 클래스에서만 70% 이상 일관되게 제공되는 반면, 다른 클래스는 50% 이하에 머물러 지리적 메타데이터가 부족함을 드러냈다. 이는 검색 엔진이나 자동화 에이전트가 위치 기반 서비스를 제공하는 데 한계가 있음을 암시한다.
품질 평가를 위해 Mean Squared Error(MSE)를 활용했으며, 연도별 MSE가 감소하거나 유지되는 경향을 보였다. 이는 어노테이션의 정확도·완전성이 향상되고 있음을 정량적으로 확인한 결과이다.
2016년 8월부터 10월까지 공개된 Hotel Extension(예: Campground, HotelRoom, Room 등)의 사용 현황을 별도로 조사한 결과, Campground(716건), HotelRoom(117건), Room(3,339건) 등 소수의 새로운 타입만이 제한적으로 활용되었으며, hasAmenity와 같은 신규 속성도 약 7,000건 정도만 등장했다. 이는 확장 기능이 아직 초기 채택 단계에 있음을 보여준다.
평점 측면에서는 aggregateRating 속성값을 1‑5 점으로 정규화한 뒤 연도별 분포를 분석했으며, 2015년 대비 2016년에 낮은 평점(1‑2점)의 비중이 눈에 띄게 증가했다. 이는 소비자 리뷰가 부정적일 때 더 큰 주목을 받는 현상과 일치한다는 기존 연구(Park & Nicolau, 2015)와도 부합한다.
한계점으로는 2013년 데이터가 citysearch.com 도메인에 편중돼 전체 비율에 과도한 영향을 미쳤으며, Hotel Extension 분석이 3개월에 국한돼 장기적인 효과를 평가하기 어렵다는 점을 들 수 있다. 또한, 주소·위치 속성의 누락이 국가별 분석의 정확성을 저해할 가능성이 있다.
향후 연구에서는 PLD(Pay‑Level Domain)별 어노테이션 패턴을 심층 분석하고, 2017년 이후 WDC 데이터셋을 활용해 최신 트렌드와 확장 기능의 채택 현황을 추적할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기