위기 마이크로블로그 실시간 위치 추론
초록
GeoSense‑AI는 해시태그 분할, 품사 기반 고유명사 탐지, 재난 어휘 주변 의존구문 분석, 경량 NER, 그리고 지명 사전 검증을 결합한 스트리밍 친화적인 파이프라인으로, 위기 상황에서 발생하는 트위터와 같은 마이크로블로그의 텍스트로부터 빠르고 정확하게 위치 정보를 추출한다. 기존 NER 툴키트 대비 150배 가량 빠른 처리 속도와 0.81의 F1 점수를 달성했으며, 실시간 지도 시각화 인터페이스까지 제공한다.
상세 분석
GeoSense‑AI는 위기 인포매틱스 도메인에 특화된 다단계 텍스트 처리 파이프라인을 설계함으로써, 마이크로블로그 특유의 비정형성, 짧은 길이, 해시태그 혼합 등을 효과적으로 다룬다. 첫 단계인 해시태그 분할에서는 동적 프로그래밍 기반의 통계적 단어 분할 알고리즘을 적용해, #ChennaiFloods와 같은 복합 해시태그를 의미 있는 단어 시퀀스로 변환한다. 이 과정은 O(n²) 시간 복잡도를 가지면서도, 후속 단계에서 지명 사전 검증을 통해 발생 가능한 오탐을 억제한다.
텍스트 정규화 단계에서는 URL, 멘션, 리트윗 표시 등을 제거하고, CamelCase를 분리해 단어 경계를 복원한다. 여기서 대소문자 변환이나 어간 추출을 의도적으로 배제한 것은, 고유명사의 대문자 정보를 보존해 위치명 인식 정확도를 높이기 위함이다.
품사 기반 구문 패턴 매칭은 spaCy POS 태거를 활용해 ‘in’, ‘at’, ‘near’ 등 전치사와 방향어, 위치 접미사(예: city, district) 등을 결합한 정규식 형태의 패턴을 정의한다. 이는 일반 명사와 인명을 구분하고, 짧은 트윗에서도 위치 명사를 효과적으로 추출한다. 그러나 패턴에 맞지 않는 경우를 보완하기 위해 의존구문 분석을 도입한다. spaCy 의존구문 파서를 이용해 재난 어휘(‘flood’, ‘earthquake’ 등)와 3~4 단계 이내에 연결된 토큰을 후보 위치로 선정함으로써, 비표준 문장 구조에서도 위치 정보를 포착한다.
경량 NER은 spaCy 사전 학습 모델을 사용해 GPE, FAC, LOC 라벨을 추가적으로 탐지한다. 이는 패턴 매칭과 의존구문 분석이 놓친 미세한 위치명을 보완하며, 전체 파이프라인의 리콜을 크게 향상시킨다.
마지막으로 두 종류의 지명 사전(GeoNames, OpenStreetMap)을 활용한 검증·디스앰비규에이션 단계가 있다. 정확한 문자열 매칭 후, 퍼지 매칭을 통해 철자 변형을 보정하고, 좌표와 행정 구역 정보를 반환한다. GeoNames 기반 GeoLoc은 전역 커버리지를 유지하면서도 처리 속도가 1.19초(전체 239k 트윗)로 실시간 요구에 부합한다. 반면 OSM 기반 OSMLoc은 높은 리콜(0.89)에도 불구하고 정밀도가 낮고 처리 시간이 711초로 비현실적이다.
실험에서는 1,000개의 수동 라벨링된 트윗을 대상으로 UniLoc, BiLoc, Stanford NER, TwitterNLP, SpaCy NER, Google Cloud 등 6개 베이스라인과 비교하였다. GeoLoc은 정밀도 0.80, 리콜 0.83, F1 0.81을 기록했으며, Stanford NER가 175초에 비해 150배 가량 빠른 속도를 보였다. 오류 분석 결과, 사전에 없는 지역명, 창의적 철자, 지명 대신 랜드마크 언급 등이 주요 오탐·누락 원인으로 파악되었다.
전체적으로 GeoSense‑AI는 고성능 NER와 복잡한 멀티모달 모델이 요구하는 높은 연산 비용을 회피하고, 도메인 특화 규칙과 경량 모델을 조합해 실시간 위기 대응에 최적화된 위치 추론 시스템을 구현했다.
댓글 및 학술 토론
Loading comments...
의견 남기기