도시 지역 표현 학습을 위한 작업 지향 프롬프트 튜닝
초록
ToPT는 두 단계로 구성된 프레임워크로, 공간 정보를 명시적으로 반영한 Graphormer 기반 융합 모듈(SREL)과 대형 멀티모달 언어 모델을 활용한 작업‑특화 프롬프트 정렬 모듈(Prompt4RE)을 결합한다. 이를 통해 이질적인 도시 데이터에서 공간적으로 일관된 지역 임베딩을 학습하고, 각 다운스트림 과제(범죄 예측, 체크인 예측, 서비스 콜 추정 등)에 맞는 의미적 정렬을 제공한다. 실험 결과, 기존 최첨단 방법 대비 최대 64.2%의 성능 향상을 달성했으며, 다양한 MLLM에 대한 모델‑독립성도 입증하였다.
상세 분석
ToPT는 기존의 두 단계(region embedding → task‑specific fine‑tuning) 접근법이 갖는 “task‑agnostic” 한 표현과 “spatially incoherent” 한 관계 모델링이라는 두 가지 근본적인 한계를 동시에 해결한다는 점에서 혁신적이다. 첫 번째 모듈인 SREL은 다중 뷰(POI, 이동성, 토지 이용 등)별 임베딩을 개별적으로 추출한 뒤, Graphormer 기반의 교차‑뷰 융합을 수행한다. 여기서 핵심은 거리 기반 인접 행렬과 각 노드의 중심성(Strength Centrality)을 학습 가능한 어텐션 바이어스로 삽입함으로써, 전통적인 GNN이 주로 활용하는 이웃 집계 방식보다 더 풍부하고 해석 가능한 공간 관계를 모델링한다는 점이다. 어텐션 스코어는
α_ij = Softmax_j (Q_i·K_j^T /√d + B_ij)
형태로 계산되며, B_ij는 거리·중심성에 의해 조정된 공간 바이어스이다. 이는 지역 간 물리적 거리와 네트워크 상의 중요도가 임베딩 학습에 직접 반영되도록 보장한다.
두 번째 모듈인 Prompt4RE는 고정된 멀티모달 대형 언어 모델(MLLM)을 활용해, 위성 이미지, 스트리트 뷰, 지리 텍스트 등 다양한 모달리티를 입력으로 하는 작업‑특화 템플릿을 통해 의미적 프롬프트 벡터 P를 추출한다. 이후 다중 헤드 교차‑어텐션을 통해 지역 임베딩 E와 P를 정렬한다. 구체적으로 Q는 E에서, K와 V는 P에서 파생되며,
MHA(E,P) = Concat(att_1,…,att_L)
형태의 교차‑어텐션 결과에 잔차 연결과 LayerNorm을 적용해 P′를 얻는다. 최종적으로 P′를 선형 변환해 소프트 프롬프트 S와 결합(
댓글 및 학술 토론
Loading comments...
의견 남기기