보행자 마음 읽는 트랜스포머

2026년 02월 04일

읽는 시간: 9 분

...

#paper #AI 요약

📝 원문 정보

- Title: VIT-Ped Visionary Intention Transformer for Pedestrian Behavior Analysis
- ArXiv ID: 2601.01989
- 발행일: 2026-01-05
- 저자: Aly R. Elkammar, Karim M. Gamaleldin, Catherine M. Elias

📝 초록

(이 논문은 보행자의 교통 의도 예측을 위한 새로운 방법론, PedViViT를 제안합니다. 이 모델은 비시각적 데이터와 시각적 데이터를 처리하기 위해 변형자 아키텍처를 사용하며, 특히 작은 모델로 뛰어난 성능을 보여줍니다.)

💡 논문 해설

1. **다중 모달 모델**: 이 연구는 비시각적 데이터와 시각적 데이터를 모두 처리할 수 있는 새로운 방법론을 제안합니다. 이를 통해 교통 상황의 복잡성을 효과적으로 다룰 수 있습니다. 2. **성능 향상**: 기존 모델보다 더 작은 크기로 뛰어난 성능을 보여줍니다. 이는 자동차가 실시간으로 의사결정을 내릴 때 중요한 요소입니다. 3. **비시각적 데이터 처리**: 단순히 숫자로 표현되는 데이터만으로도 우수한 결과를 얻을 수 있습니다.

Sci-Tube 스타일 스크립트

쉬운 설명: 이 모델은 차가 보행자를 어떻게 움직일지 예측할 수 있게 돕는 새로운 방법입니다. 마치 당신이 길에서 사람의 행동을 예측하듯이, 이 모델도 비슷한 일을 합니다.
중간 수준 설명: 이 모델은 보행자의 위치와 자세 등을 이용하여 그가 도로를 건널지 예측합니다. 이를 통해 차량은 더 안전하게 운행할 수 있습니다.
고급 설명: 이 연구는 변형자 아키텍처를 사용해 비시각적 데이터와 시각적 데이터를 처리하며, 이를 통해 보행자의 교통 의도를 효과적으로 예측합니다.

📄 논문 발췌 (ArXiv Source)

# 소개 및 관련 연구

최근 몇 년 동안 발생한 많은 사고 중 94%가 인간 오류로 인해 발생했습니다. 예를 들어, 치명적인 사고의 25%는 과속 때문입니다. 이러한 문제들은 자동차 운전 활동을 자동화하는 필요성을 시사합니다. 따라서 2045년까지 미국의 모든 차량 중 60%가 완전 자율 주행 차량이 될 것으로 예상됩니다. 그러나 차량의 자동화 수준을 높이는 것은 도전 과제를 동반합니다. 세계보건기구(WHO)에 따르면 매년 약 135만 명의 사망자와 2천만에서 5천만 명 사이의 부상자가 발생하고 있습니다. 올바른 안전 조치와 알고리즘 없이는 이러한 수치가 급증할 수 있으며, 도시 환경을 더욱 위험하게 만들 것입니다. 이에 따라 다양한 도시 시나리오를 위한 알고리즘 개발이 연구 및 개발의 주요 포커스입니다. 장애물 감지와 고급 운전자 지원 시스템(ADAS) 외에도 보행자의 의도/행동 예측은 중요하며, 이는 보행자의 움직임을 예상하여 더 적시적이고 적절한 결정을 내릴 수 있게 하여 미래의 도로를 모든 사람들에게 안전하게 만듭니다.

과거 10년 동안 보행자 의도 예측은 핫 연구 주제였으며, 다양한 데이터셋, 알고리즘 및 특징이 이러한 과제에 대응하기 위해 사용되었습니다. 그러나 인간의 복잡성과 그들의 의도를 예측하는 어려움 때문에 여전히 많은 연구가 이루어지고 있습니다. 문헌에서는 보행자 행동을 설명할 때 의도, 행동, 그리고 행동이라는 용어들이 자주 혼용됩니다. 우리의 작업에서는 보행자의 의도를 예상하려고 노력하며, 이는 전통적인 방법으로 관찰할 수 없는 보행자의 약속과 계획을 나타내는 정신 상태로 정의될 수 있습니다.

년대에 걸쳐 많은 알고리즘, 모달리티 및 특징이 제안되었습니다. 초기에는 GPU 기술의 한계로 인해 지지 벡터 머신(SVM)이 이러한 작업에 대한 선호된 모델이었습니다. 예를 들어 소규모 컨볼루션 신경망을 사용하여 시각 데이터를 SVM 모델에 입력하는 방식으로 교차와 비교 행동을 분류했습니다. 최근의 연구에서는 공간과 시간 차원을 포착할 수 있는 입력 시퀀스가 사용되었습니다. 이를 통해 시퀀스 내에서 서로 다른 프레임 간의 의존성을 활용할 수 있습니다. 이 접근법은 공간-시간 모델링이라고 불리며, 다음과 같은 단계를 통해 달성될 수 있습니다. 첫째로 우리는 피딩포워드 신경망(fc)을 사용하여 비시각 데이터에 대한 공간 특징을 추출하거나 인코딩하고 2D 컨볼루션 신경망(CNNs)이나 그래프 컨볼루션 신경망을 사용하여 시각 데이터를 처리합니다. 그 다음에는 이러한 특징을 시간 의존성을 포착할 수 있는 RNN, LSTMs 및 GRUs와 같은 아키텍처에 입력합니다. 예를 들어 2D CNN을 사용해 시각적 특징을 인코딩한 후 이를 RNN에 전달하여 서로 다른 프레임 간의 시간 특징을 인코딩하고 마지막으로 인코딩된 공간-시간 특징을 분류 작업을 위한 피딩포워드 레이어(fc)로 입력합니다.

위에서 언급한 접근법과는 달리, 문헌에서는 공간적이고 시간적인 특징을 동시에 학습하려고 시도하는 다른 접근법들이 있습니다. 예를 들어 3D 컨볼루션 신경망을 사용하여 이를 2D 버전의 커널 대신 3D 버전으로 변경함으로써 공간-시간적 특징을 포착합니다. 또한 LSTMs에 합성곱 구조를 추가한 ConvLSTM이 개발되어 효과적으로 공간 및 시간 특징을 학습할 수 있습니다.

최근, 2017년 자연어 번역을 위해 변형자 모델이 도입되면서 딥러닝 분야에서 중요한 발전을 이루었습니다. 이는 NLP뿐만 아니라 여러 수정을 통해 컴퓨터 비전 분야에서도 우수한 성능을 보여주었습니다. 이러한 우위는 주로 주의 메커니즘의 사용 때문입니다. 주의 메커니즘은 입력 데이터의 다양한 부분에 대한 중요성을 가중하여 병렬 처리가 가능하고 시퀀스 내에서 정보 손실 없이 장거리 의존성을 포착할 수 있습니다. 최근 문헌에서는 변형자 기반 알고리즘을 사용해 보행자의 의도 예측 작업을 수행하는 경우를 찾아볼 수 있으며, 이를 통해 RNN과/또는 CNN의 필요성이 줄어들었습니다.

본 연구에서는 새로운 방법론인 PedViViT를 제안합니다. 이 모델은 시각적 데이터에 대한 최신 비디오 비전 변형자 모델과 비시각적 데이터에 대한 변형자 기반 인코더를 사용하여 보행자의 교차 의도를 예측합니다. 이를 요약하면, 우리의 기여는 다음과 같습니다:

보행자의 의도 예측을 위한 다중 모달 모델입니다. 이 모델은 비디오 비전 변형자(ViVit)라는 변형자 아키텍처 모델에 기반하고 있습니다.
PCPA보다 x6 작은 모델로 우수한 성능을 보여줍니다. 이를 통해 실시간 응용 프로그램에 더 적합합니다.
PCPA의 x15보다 작은 비시각적 모델로 우수한 성능을 보여주며, 경계 상자 좌표와 같은 수치 입력만 사용합니다.
다양한 특징 및 모달리티에 대한 아블레이션 연구를 수행했습니다.

방법론

문제 정의

보행자의 교차 의도 예측 작업은 다음과 같이 정의됩니다: 마지막 n 프레임에 대한 데이터 시퀀스가 주어졌을 때, 보행자가 도로를 건널 것인지 예측하고 추정하여 자동차가 더 나은 결정을 내릴 수 있도록 합니다. 우리의 목표는 과거 n 시간 스탬프를 사용해 교차 확률 $`C_i \in \{0, 1\}`$을 예측하는 것입니다.

우리의 다양한 모델에서는 보행자의 $`C_i`$를 예측하기 위해 다른 특징을 사용합니다. 우리의 모델이 사용하는 특징은 다음과 같습니다:

경계 상자: 보행자 i의 좌상단과 우하단 좌표로 표시됩니다:
MATH
```
B_i = \{b_{i}^{t-m},b_{i}^{t-m+1},...,b_{i}^{t}\}
```
클릭하여 더 보기
중심: 보행자 i의 경계 상자의 중심입니다:
MATH
```
C_i = \{c_{i}^{t-m},c_{i}^{t-m+1},...,c_{i}^{t}\}
```
클릭하여 더 보기
포즈 키포인트: 보행자 i의 18개 키포인트를 나타냅니다:
MATH
```
K_i = \{k_{i}^{t-m},k_{i}^{t-m+1},...,k_{i}^{t}\}
```
클릭하여 더 보기
자기 차량의 속도:
MATH
```
S_i = \{s^{t-m},s^{t-m+1},...,s^{t}\}
```
클릭하여 더 보기
지역 컨텍스트: 보행자 i 주변을 보여주는 프레임의 캡처된 버전입니다:
MATH
```
L_i = \{l_{i}^{t-m},l_{i}^{t-m+1},...,l_{i}^{t}\}
```
클릭하여 더 보기
전체 컨텍스트: 전체 프레임입니다:
MATH
```
G_i = \{g^{t-m},g^{t-m+1},...,g^{t}\}
```
클릭하여 더 보기
지역 주변: 보행자 i의 픽셀을 모두 같은 색으로 바꾸어 마스킹한 프레임의 캡처된 버전입니다:
MATH
```
A_i = \{a_{i}^{t-m},a_{i}^{t-m+1},...,a_{i}^{t}\}
```
클릭하여 더 보기

각 입력 유형은 길이 m + 1의 시퀀스를 가지고 있으며 t는 교차 또는 비교 행동 직전 1-2초 범위 내에서의 시간입니다.

데이터 준비 및 전처리

실험에서는 자율 주행에서의 결합주의(JAAD) 데이터셋을 사용해 위에 언급된 특징을 획득했습니다. JAAD 데이터셋은 북아메리카와 동유럽에서 촬영한 240시간 이상의 운전 영상 중에서 추출된 346개의 짧은 비디오 클립(5-10초 길이)으로 구성되어 있습니다. 비디오는 30fps로 기록되었으며, 다양한 보행자의 행동을 캡처했습니다.

다양한 입력 유형에는 다른 방법의 전처리가 필요합니다.

경계 상자 & 중심

이러한 특징은 현재 프레임에서 보행자가 어디에 있는지 알려주며, 시퀀스별 프레임 간 움직임에 대한 추가 정보를 제공합니다. 이 특징들은 델타 인코딩이라는 기법을 통해 정규화되며, 첫 번째 프레임의 경계 상자와 중심이 나머지 n-1 프레임에서 뺀 후 첫 번째 프레임의 경계 상자 B와 중심 C가 제거됩니다. 각 경계 상자는 2D 좌표 벡터로, 즉

MATH

b_i^{t-m} = \{x_{itl}^{t-m},y_{itl}^{t-m},x_{ibr}^{t-m},y_{ibr}^{t-m}\}

클릭하여 더 보기

여기서 $`x_{itl}, y_{itl}`$는 좌상단 점을 나타내고, $`x_{ibr}, y_{ibr}`$는 우하단 점을 나타냅니다.

각 중심은 단일 2D 좌표 벡터로, 즉

MATH

c_i^{t-m} = \{x_{i}^{t-m},y_{i}^{t-m}\}

클릭하여 더 보기

포즈 키포인트

포즈 키포인트는 각 프레임에서 대상 보행자의 자세와 세부 동작을 나타냅니다. 그러나 JAAD 데이터셋에서는 정확한 포즈 키포인트가 제공되지 않으나 PedestrianActionBenchmark 저장소에서 제공됩니다. 단일 포즈 키포인트 벡터 k는 18개의 포즈 관절을 포함하는 36D의 2D 좌표 벡터입니다, 즉,

MATH

k_i^{t-m} = \{x_{i1}^{t-m},y_{i1}^{t-m},...,x_{i18}^{t-m},y_{i18}^{t-m}\}

클릭하여 더 보기

자기 차량의 속도

자기 차량의 속도 S는 JAAD에서 제공되지만, 정지, 느리게 이동, 빠르게 이동, 감속, 가속 등 5개 범주로 분류됩니다.

지역 컨텍스트

지역 컨텍스트 $`L_{ij}`$는 대상 보행자와 그 주변을 시각적 특징으로 제공합니다. 만약 보행자의 경계 상자가 확대 비율이 1보다 크다면, 이를 포함합니다. $`L_{ij}`$는 대상 보행자를 중심으로 다양한 크기(112x112, 128x128, 224x224 픽셀)의 RGB 이미지 시퀀스로 구성됩니다. 이미지는 255로 나누어 정규화됩니다.

지역 주변

지역 주변 $`A_{ij}`$는 지역 컨텍스트와 유사하지만, 대상 보행자의 경계 상자를 회색으로 바꾸어 마스킹합니다. 그러나 주변은 그대로 유지됩니다. 이미지는 255로 나누어 정규화됩니다.

전체 컨텍스트

전체 컨텍스트 $`G_{ij}`$는 프레임을 (112x112, 224x224) 픽셀로 리사이즈한 것입니다. 이미지는 255로 나누어 정규화됩니다. 이 입력의 목적은 다른 도로 사용자와 도로 간 상호 작용에 필요한 시각적 특징을 제공하는 것입니다.

인식

우리 모델 아키텍처를 살펴보기 전에 테스트 환경을 준비했습니다. 다양한 장면에서 사람들이 교차하거나 교차하지 않는 비디오를 미리 녹화해 보고 우리 모델이 의도를 정확하게 예측했는지, 그리고 사건 발생 1초 이전에 맞게 예측했는지를 확인하기 위해 사용했습니다. 일부 비디오는 JAAD 데이터셋에서 가져왔으며, 나머지는 GUC 캠퍼스에서 직접 녹화했습니다. 따라서 우리는 YOLOv8을 사용해 보행자를 감지하고 그들의 포즈 키포인트를 추정하고 각 보행자에게 고유한 ID를 부여하여 추적했습니다. 그런 다음, 모델에 입력할 데이터를 준비하고 정확하게 의도를 예측하는지 테스트했습니다.

모델 아키텍처

우리의 모델에서는 두 가지 유형의 데이터가 사용됩니다. 차량 속도, 경계 상자, 중심, 키포인트 좌표와 같은 비시각적 데이터는 변형자를 사용합니다. 지역 컨텍스트, 전체 컨텍스트 및 지역 주변과 같은 시각적 기반 데이터는 비디오 비전 변형자(ViViT)를 사용하여 처리합니다. 위에서 언급된 다양한 변환기의 결과로 생성되는 특징은 서로 다른 방식으로 결합됩니다.

변형자 모듈

우리는 모든 비시각적 데이터에 기본 변형자 인코더를 사용합니다. 먼저, 비시각적 데이터는 마지막 차원을 따라 연결되고 포지셔널 인코딩이 적용됩니다(에서 사용한 것과 같은 [eq:sigmoid])로 시퀀스별 프레임 간의 순서를 유지하며 입력은 (배치 크기, 프레임 수, 특징) 모양의 3D 배열입니다. 그런 다음 변형자 인코더에 인코딩된 데이터가 전달되며 N 개의 인코더 레이어가 포함되어 있어 자기 주의 메커니즘이 입력 시퀀스의 다양한 부분을 가중하고 서로 다른 관계를 포착할 수 있습니다.

MATH

\begin{equation}
        P = \begin{cases}
        \sin\left(\frac{\text{pos}}{10000^{2i/d}}\right), & \text{if } i \mod 2 = 0 \\
        \cos\left(\frac{\text{pos}}{10000^{2i/d}}\right), & \text{if } i \mod 2 = 1
        \end{cases}
        \label{eq:pos_enc}
\end{equation}

클릭하여 더 보기

ViViT 모듈

시각적 입력의 경우, 먼저 들어오는 데이터에 관통 빔 임베딩이라는 특수한 유형의 임베딩을 적용하여 특정 패치가 비디오 샘플에서 시간이 지남에 따라 어떻게 변화하는지 정보를 포착합니다. 이는 patch-based embedding 의 확장입니다. 입력 데이터는 RGB 이미지 시퀀스로 모양 (배치 크기, 프레임 수, 이미지 높이, 이미지 너비, 채널)의 5D 배열로 수집됩니다. 그런 다음 임베딩에 포지셔널 인코딩을 적용하고 결과를 ViViT 모델에 전달합니다.

결합 모듈

데이터가 위에서 언급된 모듈에 입력되면 그 출력은 어떤 방식으로든 결합되어 보행자가 교차할 가능성이 있는지의 확률을 출력할 수 있습니다. 여러 가지 방법이 탐색되었으며, 일부는 특징 차원을 따라 출력을 연결하고 결과를 피딩포워드 신경망이나 Global Average Pooling 레이어 또는 다른 기본 변형자 인코더 또는 LSTM에 전달하여 들어오는 데이터에 대한 추가 시간 특징을 학습합니다. 마지막으로 결합 모듈에서 나온 출력을 시그모이드 [eq:sigmoid] 레이어로 전달하여 보행자의 교차 의도 확률을 출력합니다.

MATH

\begin{equation}
            \sigma(x) = \frac{1}{1 + e^{-x}}
        \label{eq:sigmoid}
\end{equation}

클릭하여 더 보기

여기서 x는 결합 모듈에서 나온 출력을 나타냅니다.

실험

@l*10S[table-format=2.3]@ & &
(lr)2-6 (lr)7-11 & Acc & AUC & F1 & Precision & Recall & Acc & AUC & F1 & Precision & Recall
ConvLSTM & 0.585 & 0.582 & 0.327 & 0.228 & 0.578 & 0.590 & 0.530 & 0.701 & 0.644 & 0.767
CAPformer & 0.731 & 0.778 & 0.525 & 0.380 & 0.85 & 0.511 & 0.544 & 0.516 & 0.68 & 0.415
PCPA & 0.761 & 0.784 & 0.545 & 0.408 & 0.822 & 0.536 & 0.490 & 0.646 & 0.619 & 0.675
C3D & 0.854 & 0.764 & 0.600 & 0.574 & 0.628 & 0.584 & 0.477 & 0.732 & 0.614 & 0.907
Ours 1& 0.81 & 0.74 & 0.51 & 0.47 & 0.55 & 0.62 & 0.61 & 0.77 & 0.63 & 0.99
Ours 2 (비시각적)& 0.84 & 0.81 & 0.51 & 0.52 & 0.5 & 0.64 & 0.58 & 0.77 & 0.65 & 0.93
Ours 3 & 0.86 & 0.771870084 & 0.61 & 0.58 & 0.644010195 & 0.61988304