보행자 횡단 행동 예측을 위한 시각·지식 융합 대형 언어 모델
기존의 보행자 횡단 행동 추론 방법은 통계 모델부터 감독 학습까지 다양하지만, 현장 적용 시 일반화가 부족하고 새로운 장소에서 성능이 저하된다. 최근 대형 언어 모델(LLM)의 등장으로 수치적 패턴 매칭을 넘어 의미론적·맥락 인지를 통한 행동 추론이 가능해졌지만, 현재 LLM 활용 사례는 도메인 특화 적응과 시각적 정보를 충분히 활용하지 못한다. 본 연구는
초록
기존의 보행자 횡단 행동 추론 방법은 통계 모델부터 감독 학습까지 다양하지만, 현장 적용 시 일반화가 부족하고 새로운 장소에서 성능이 저하된다. 최근 대형 언어 모델(LLM)의 등장으로 수치적 패턴 매칭을 넘어 의미론적·맥락 인지를 통한 행동 추론이 가능해졌지만, 현재 LLM 활용 사례는 도메인 특화 적응과 시각적 정보를 충분히 활용하지 못한다. 본 연구는 Pedestrian Crossing LLM(PedX-LLM)이라는 프레임워크를 제안한다. LLaVA를 통해 추출한 시각 특징과 텍스트 데이터, 교통 분야 지식을 결합하고, LoRA 기법으로 LLaMA‑2‑7B 기반 모델을 미세조정하여 보행자의 횡단 결정을 예측한다. PedX‑LLM은 균형 정확도 82.0%를 달성했으며, 이는 계층적 로지스틱 회귀(HLR)보다 7.9점, CatBoost보다 3.0점 높은 수치이다. 시각 모듈만으로도 2.9%의 성능 향상이 확인되었으며, 도메인 지식 통합으로 추가 4.1% 개선이 이루어졌다. 현장별 분할을 통한 교차‑사이트 검증에서, 사전학습만 적용한 제로샷 PedX‑LLM은 다섯 개 미보정 사이트에서 66.9%의 균형 정확도를 기록, 기존 데이터 기반 방법보다 최소 18점 앞섰다. 다섯 개의 검증 샘플을 활용한 few‑shot 학습으로 정확도는 72.2%까지 상승한다. 결과는 시각·지식 융합 추론이 인간과 유사한 의사결정 논리를 모방하고, 순수 데이터‑드리븐 접근법의 한계를 극복함을 보여준다.
상세 요약
PedX‑LLM 논문은 보행자 횡단 행동 예측이라는 전통적인 교통공학 문제에 인공지능 최신 기술을 접목시킨 점에서 학문적·실용적 의미가 크다. 첫째, 기존 연구는 주로 현장별 수집된 센서 데이터나 CCTV 영상에서 추출한 통계적 특성에 의존했으며, 이러한 접근은 데이터 양과 품질에 크게 좌우된다. 특히 새로운 교차로나 도시 환경에 적용할 경우, 학습 데이터와의 분포 차이로 성능이 급격히 떨어지는 ‘도메인 전이’ 문제가 심각했다.
둘째, 저자들은 LLaVA(Large Language and Vision Assistant)를 이용해 이미지에서 의미론적 특징을 추출하고, 이를 텍스트 기반 LLM에 결합함으로써 ‘시각‑언어’ 멀티모달 인코딩을 구현했다. 이 과정에서 교통 분야 전문 지식(예: 보행자 신호, 도로 폭, 차선 수, 주변 건물 밀도 등)을 프롬프트 형태로 모델에 주입하고, LoRA(Low‑Rank Adaptation) 기법으로 파라미터 효율적인 미세조정을 수행했다. LoRA는 전체 모델을 재학습하지 않고도 소수의 추가 파라미터만으로 도메인 특화 성능을 크게 끌어올릴 수 있어, 대규모 모델을 실제 연구·현장에 적용하는 데 현실적인 장점을 제공한다.
성능 평가에서는 ‘균형 정확도(balanced accuracy)’를 주요 지표로 삼아 클래스 불균형을 보정했으며, PedX‑LLM이 기존 계층적 로지스틱 회귀와 CatBoost보다 각각 7.9·3.0 포인트 높은 점수를 기록했다. 특히 시각 모듈만으로도 2.9% 향상이 나타났다는 점은, 물리적 환경(교차로 구조, 시야 차단 요소 등)이 보행자 의사결정에 중요한 영향을 미친다는 기존 교통학 이론을 실증적으로 뒷받침한다. 도메인 지식 통합을 통해 추가된 4.1% 개선은, LLM이 단순히 데이터 패턴을 학습하는 것이 아니라 인간 전문가가 사용하는 규칙과 논리를 내재화할 수 있음을 시사한다.
교차‑사이트 검증 결과는 특히 주목할 만하다. 제로샷 설정에서 66.9%의 균형 정확도를 달성했으며, 이는 기존 데이터‑드리븐 모델이 전혀 일반화하지 못하는 상황에서도 의미 있는 예측을 가능하게 한다. 다섯 개의 샘플만을 활용한 few‑shot 학습으로 72.2%까지 끌어올린 점은, 소량의 현장 데이터만으로도 모델을 빠르게 적응시킬 수 있음을 보여준다. 이는 도시 계획가나 교통 정책 입안자가 새로운 지역에 신속히 모델을 적용하고, 현장 검증을 통해 지속적으로 개선해 나갈 수 있는 실용적 기반을 제공한다.
하지만 몇 가지 한계도 존재한다. 첫째, 시각 특징 추출에 사용된 LLaVA가 사전 학습된 이미지 도메인에 크게 의존하므로, 저해상도 CCTV 영상이나 악천후 상황에서는 성능 저하가 예상된다. 둘째, 도메인 지식 프롬프트가 고정된 형태로 제공되었기 때문에, 복잡한 교통 규칙(예: 보행자 전용 구역과 일반 차도 혼합 구간)이나 문화적 차이에 대한 세밀한 조정이 어려울 수 있다. 셋째, 현재 실험은 다섯 개의 도시를 대상으로 했으며, 보다 다양한 국가·문화권에서의 검증이 필요하다.
향후 연구 방향으로는(1) 멀티스펙트럼·저조도 영상 처리 모듈을 추가해 악조건에서도 견고한 시각 인식을 구현하고, (2) 도메인 지식을 동적 프롬프트 엔진으로 전환해 현장 상황에 맞게 실시간으로 업데이트하며, (3) 대규모 국제 데이터셋을 구축해 문화·법규 차이를 모델에 학습시키는 것이 제안된다. 이러한 확장은 PedX‑LLM을 보행자 안전 예측뿐 아니라 자율주행 차량, 스마트 시티 교통 관리 시스템 등 다양한 응용 분야에 확장할 수 있는 기반이 될 것이다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...