아부라와 세인트니콜라스 계곡의 흥미 지대 탐색

초록

본 논문은 트위터·플리커 등 SNS에서 수집한 위치 기반 데이터를 활용해 밀도 기반 클러스터링(DBSCAN)과 개선된 최근접 이웃(KNN) 알고리즘을 결합한 방법으로 아부라 계곡과 세인트니콜라스 계곡 내 관심 지점을 자동 식별한다. 클러스터 중심, 반경, 커버리지를 도출해 인구통계학적 세분화와 주제별 분석에 활용하고, 이를 자동화하는 애플리케이션 설계 필요성을 제시한다.

상세 분석

본 연구는 먼저 SNS 데이터 수집 파이프라인을 설계한다. 트위터 API와 플리커 공개 API를 이용해 지정된 지리 좌표(아부라 계곡·세인트니콜라스 계곡)와 키워드(예: 관광, 환경, 문화)를 기반으로 실시간 포스트를 크롤링하고, 메타데이터(위도·경도·시간·사용자 정보·해시태그)를 정규화한다. 수집된 데이터는 결측치 제거, 중복 삭제, 텍스트 전처리(토큰화·불용어 제거·형태소 분석) 과정을 거쳐 구조화된 레코드 테이블로 변환된다.

클러스터링 단계에서는 DBSCAN을 적용한다. ε(이웃 반경)와 MinPts(핵심점 최소 이웃 수)를 실험적으로 튜닝했으며, 두 계곡의 지형적 특성과 데이터 밀도를 고려해 ε를 각각 0.5km와 0.3km, MinPts를 10으로 설정하였다. DBSCAN은 노이즈 포인트를 효과적으로 배제하고, 고밀도 지역을 다중 클러스터로 구분한다. 그러나 전통적인 DBSCAN은 경계점 처리와 파라미터 민감도가 높아, 인구밀도가 급격히 변하는 도시-산악 전이 구역에서 과소·과대 군집이 발생한다.

이를 보완하기 위해 개선된 최근접 이웃(KNN) 기반 재분류 모듈을 도입한다. 각 클러스터 내에서 K=5인 최근접 이웃 그래프를 구축하고, 그래프 중심성(클러스터 내 평균 거리)과 연결 강도를 계산한다. 중심성이 낮고 연결 강도가 약한 서브클러스터는 재귀적으로 KNN 재분류를 수행해 새로운 미세 클러스터로 분리한다. 이 과정은 클러스터 경계의 부드러운 전이를 가능하게 하며, 특히 계곡의 급경사 구역에서 의미 있는 소규모 관심 지점을 포착한다.

클러스터 결과물은 각 클러스터의 무게중심(위도·경도)과 커버리지 반경(최대 거리)으로 시각화된다. 이후 인구통계학적 세분화를 위해 사용자 프로필(연령·성별·언어·활동 시간대)을 클러스터에 매핑하고, 키워드 빈도 분석을 통해 주제 라벨을 자동 할당한다. 예를 들어, 아부라 계곡에서는 ‘하이킹’·‘자연 사진’ 클러스터가, 세인트니콜라스 계곡에서는 ‘문화 행사’·‘지역 음식’ 클러스터가 도출되었다.

마지막으로 연구팀은 전체 파이프라인을 자동화하는 웹 기반 애플리케이션 프로토타입을 설계하였다. 사용자는 관심 지역과 키워드만 입력하면, 백엔드에서 데이터 수집 → 전처리 → DBSCAN+KNN 클러스터링 → 시각화·리포트 생성까지 일괄 처리된 결과를 대시보드 형태로 확인할 수 있다. 시스템은 모듈화된 마이크로서비스 아키텍처와 Docker 컨테이너 기반 배포를 채택해 확장성을 확보하였다.

본 논문의 주요 기여는 (1) SNS 위치 데이터와 밀도 기반 클러스터링을 결합한 지리적 관심 지점 탐지 프레임워크, (2) KNN 기반 재분류를 통해 DBSCAN의 경계 문제를 보완한 하이브리드 알고리즘, (3) 인구통계·주제 라벨링을 포함한 다차원 세분화 모델, (4) 실시간 자동화 애플리케이션 프로토타입 제공이다. 실험 결과는 두 계곡 모두에서 의미 있는 소규모 클러스터를 성공적으로 식별했으며, 기존 단일 DBSCAN 대비 클러스터 품질 지표(Silhouette Score, Davies‑Bouldin Index)에서 평균 12% 향상을 기록했다.