쇼핑객의 서랍기 방문 분석 실시간 추적 기술로 고객 행동 파악

2026년 02월 04일

읽는 시간: 9 분

...

#paper #AI 요약

📝 원문 정보

- Title: Analyzing the Shopping Journey Computing Shelf Browsing Visits in a Physical Retail Store
- ArXiv ID: 2601.00928
- 발행일: 2026-01-02
- 저자: Luis Yoichi Morales, Francesco Zanlungo, David M. Woollard

📝 초록

최근 소매업계에서 로봇을 고객 대면 역할에 도입하는 데서 나타난 문제를 해결하기 위해, 본 연구는 물리 매장 내 고객 활동 분석을 통해 자율적인 구매 의도 이해의 첫걸음을 소개한다. 우리는 고객의 “선반 방문”을 측정하는 알고리즘을 제시하는데, 이는 고객이 가게에서 둘러보는 행동을 포착한다. 선반 방문은 머신 비전 기반 3D 추적 및 천장 카메라를 통해 얻어진 트래젝토리를 통해 추출된다. 우리는 두 개의 독립적인 트래젝토리 집합(8138개와 15129개)을 사용해 알고리즘을 교정하고, 인간 리뷰어가 라벨링한 다른 매장에서 수집되었다. 교정된 모델은 교정 과정에 포함되지 않은 트래젝토리를 평가하는데, 이는 같은 매장과 다른 매장을 통해 이루어진다. 결과 분석을 통해 알고리즘이 교정 환경과 다른 환경에서도 고객의 둘러보기 활동을 인식할 수 있음을 보여준다. 마지막으로, 우리는 모델을 사용하여 큰 트래젝토리 집합에서 고객의 “둘러보기 패턴”을 분석하고 실제 구매와의 관계를 탐색하며, 매장 계획 및 인간-로봇 상호작용에 활용할 수 있는 방법을 논의한다.

💡 논문 해설

1. **주요 기여물**: 본 연구는 물리 매장 내 고객 행동 분석 알고리즘을 개발하여 로봇이 자율적으로 고객의 구매 의도를 이해할 수 있게 한다. 2. **단순화된 설명**: 이 연구는 마치 가게에서 고객들이 어떤 제품에 관심을 보이는지 관찰하고 그 정보로 로봇에게 도움을 주듯이 작동한다. 3. **Sci-Tube 스타일 스크립트**: - **초보자 수준**: 물리 매장 내의 고객 행동을 분석하여 로봇이 고객의 관심 제품을 알아낼 수 있게 한다. - **중급자 수준**: 머신 비전 기반 알고리즘을 사용해 고객의 “선반 방문” 패턴을 추적하고 이 정보를 활용하여 로봇에게 자동화된 지원을 제공한다. - **고급자 수준**: 본 연구는 고객 트래젝토리를 분석하는 알고리즘을 통해, 매장 내 둘러보기 행동과 구매 패턴 간의 상관관계를 파악하고 이를 활용하여 로봇이 자동으로 고객에게 필요한 정보를 제공할 수 있도록 한다.

📄 논문 발췌 (ArXiv Source)

# 초록

최근 소매업계에서 로봇을 고객 대면 역할에 도입하는 데서 나타난 문제를 해결하기 위해, 본 연구는 물리 매장 내의 고객 활동 분석을 통해 자율적인 구매 의도 이해의 첫걸음을 소개한다. 우리는 고객의 “선반 방문”을 측정하는 알고리즘을 제시하는데, 이는 고객이 가게에서 둘러보는 행동을 포착한다. 선반 방문은 머신 비전 기반 3D 추적 및 천장 카메라를 통해 얻어진 트래젝토리를 통해 추출된다. 우리는 두 개의 독립적인 트래젝토리 집합(8138개와 15129개)을 사용해 알고리즘을 교정하고, 인간 리뷰어가 라벨링한 다른 매장에서 수집되었다. 교정된 모델은 교정 과정에 포함되지 않은 트래젝토리를 평가하는데, 이는 같은 매장과 다른 매장을 통해 이루어진다. 결과 분석을 통해 알고리즘이 교정 환경과 다른 환경에서도 고객의 둘러보기 활동을 인식할 수 있음을 보여준다. 마지막으로, 우리는 모델을 사용하여 큰 트래젝토리 집합에서 고객의 “둘러보기 패턴”을 분석하고 실제 구매와의 관계를 탐색하며, 매장 계획 및 인간-로봇 상호작용에 활용할 수 있는 방법을 논의한다.

서론

고객 만족도 증가, 매장 성능 향상 및 판매 확대 등 잠재적인 이점에도 불구하고, 로봇을 고객 대면 역할에 도입하는 주요 제약 요인 중 하나는 자율 행동을 가능하게 하는 어려움이다. AI는 로봇이 개방형 세계 이해를 혁명적으로 바꿀 수 있는 능력을 약속하지만, 대부분의 전문가들은 이러한 혁명은 아직 멀었으며 소매업자들은 보수적인 접근이 필요하다고 인식한다. 현재 고객 대면 서비스 로봇의 제약을 SoftBank의 Pepper에서 Whiz로의 변화를 통해 볼 수 있다. Pepper는 직접적으로 고객과 상호작용하도록 설계되었지만 성공적이지 않았으며, Whiz는 청소 등 비대면 역할에 특화된 로봇이다.

자율 행동의 핵심 구성 요소 중 하나는 로봇이 고객의 필요를 즉시 파악하고 적절한 지원을 제공하는 능력이다. 고객 의도는 복잡한 개방형 세계 문제로 간주될 수 있지만, 전자상거래 환경에서 고객 행동과 이러한 행동 측정에 대한 유사점을 통해 더 많은 이해를 위한 접근 방식을 찾을 수 있다.

전자상거래 분석 및 모델링에서는 “둘러보기 활동” 데이터가 중요하지만, 물리 매장 성능 분석에서는 간과되고 있다. 그럼에도 불구하고 물리 매장의 고객들은 온라인 둘러보기와 유사한 행동을 한다. 예를 들어, 고객은 선반 앞에서 더 긴 시간 또는 짧은 시간을 보내며 다양한 제품을 확인하고 일부만 구매할 수 있다. 이 “둘러보기 활동”은 고객의 구매와 관련이 있어 물리 매장 관리자 및 소비재 제조업체에게 매우 중요한 정보이다.

물리 매장 최적화에 대한 많은 연구는 판매 분석, 매장 레이아웃 및 제품 배치 최적화를 통해 수익을 증대시키기 위한 모델 구축에 집중되어 왔다. 그럼에도 불구하고 물리 소매 분석의 중요한 간극은 고객이 가게에 들어와 구매할 때까지 일어나는 과정인 판매 전환 퍼널 측정이다. 우리는 물리 매장 내에서 고객의 둘러보기 활동을 이해함으로써, 로봇의 자율성을 개선하고 고객에게 더 타겟팅되고 의미 있는 지원을 제공하여 고객 지원과 판매 증대에 이르는 결과를 얻을 수 있다고 주장한다.

본 연구에서는 물리 매장 내 고객이 움직이는 트래젝토리를 분석하고 “선반 방문"을 추출하는 알고리즘을 소개한다. 우리는 이 알고리즘을 사용하여 고객의 “둘러보기 패턴”과 그와 실제 구매 패턴 사이의 관계를 분석하며, 가능한 응용 사례, 제한사항 및 미래 연구 방향에 대해 논의한다.

데이터 수집 및 처리

대상 매장

본 연구에는 두 개의 편의점을 사용하였다 (그림 1 참조). 매장 $`s1`$은 면적 $`87.39`$ 제곱미터, 선반 $`n_{s,1}=19`$, 출입구 $`n_{e,1}=2`$를 갖는다. 매장 $`s2`$은 면적 $`109.16`$ 제곱미터, 선반 $`n_{s,2}=50`$, 출입구 $`n_{e,2}=2`$를 갖는다.

상위에 매장 s1, 하단에 매장 s2. 파란색 다각형은 선반을 나타내며, 그 표면 정규 벡터는 파란색 선으로 표시된다. 출입구는 초록색이고 직원 전용 구역은 노란색이다.

두 매장 모두 모든 입구를 사용할 수 있으며, 트래젝토리 분석 시스템은 고객들이 각각의 입구/출구 지오메트리 영역을 방문했는지, 언제 방문했는지를 기록한다. (즉, 트래젝토리 추적 시작시 “입구”로, 종료시 “출구”로 방문한 것으로 기록된다).

매장 맵

우리는 고밀도 색상 3D 포인트 클라우드 맵을 구축하고 사용한다. 이 맵은 카메라 배치, 커버리지 계산 및 매장 레이아웃 추출에 사용된다. 매장 레이아웃에는 테두리, 입구, 출구, 선반 등이 포함된다. 선반은 3D 정점 세트와 상호작용하는 표면을 나타내는 정규 벡터로 표현되며 각 선반은 하나의 상호작용 표면만 있다. 본 연구에서 제안된 알고리즘은 선반 및 고객 시야를 방해할 수 있는 장애물(즉, 상호작용하지 않는 선반 표면)의 2D 바닥 프로젝션을 고려한다. 이러한 2D 프로젝션을 세그먼트로 취급하며 $`j`$번째 선반에 해당하는 세그먼트는 $`\mathbf{s}_j`$, $`k`$번째 장애물에 해당하는 세그먼트는 $`\mathbf{s}_{n_s+k}`$로 표시한다.

사람 추적 시스템

우리는 Standard AI의 Vision ML 플랫폼을 사용하여 고객의 움직임을 추적한다. 천장에 설치된 카메라를 통해 10 FPS로 작동하는 2D 포즈 감지 모델은 별도의 카메라에서 얻은 2D 포즈를 삼각화하여 3차원 포즈로 합성한다. 우리는 목 키 포인트를 사용해 사람들의 중심을 추적한다.

데이터 처리

우리는 트래젝토리를 고객이 매장에 입구를 통해 들어와 출구를 통해 나올 때까지의 위치와 몸 자세를 시간순으로 배열한 집합으로 정의한다. 우리의 추적 시스템의 샘플링 속도는 $`10Hz`$이다. 우리는 속도 계산 전에 트래젝토리 포인트를 저주파 필터링한다.

우리의 추적 시스템은 가속도, 손 키 포인트 등 더 많은 데이터를 제공하지만, 이 연구에서 제안된 알고리즘은 다음과 같은 정보만 사용한다. 2D 벡터

MATH

\begin{equation}
  \label{eq:posvector}
\mathbf{x}_i(t_k),
\end{equation}

클릭하여 더 보기

는 고객 $`i`$의 (3D) 중심이 매장 바닥에 투영된 2D 벡터를 나타내며, 시간 스탭은 다음과 같다.

MATH

\begin{equation}
t_k= k \Delta_t,
\end{equation}

클릭하여 더 보기

여기서 $`\Delta_t=0.1`$는 추적 시간 단계이다. 고객 $`i`$의 몸 자세를 나타내는 각도는 다음과 같다.

MATH

\begin{equation}
  \label{eq:orangle} 
\theta_i(t_k)
\end{equation}

클릭하여 더 보기

이는 어깨를 연결하는 선의 앞쪽 정규 벡터를 통해 표현되며, 이는 위에서 언급한 3D 추적 시스템을 사용하여 식별된다.

MATH

\begin{equation}
\mathbf{n}_i(t_k)=(\cos(\theta_i(t_k),\sin(\theta_i(t_k)).
\end{equation}

클릭하여 더 보기

속도는 다음과 같이 정의된다:

MATH

\begin{equation}
\mathbf{v}_i(t_k)= \frac{\mathbf{x}_i(t_{k+1})-\mathbf{x}_i(t_{k-1})}{2 \Delta_t}.
\end{equation}

클릭하여 더 보기

이것은 2D 벡터지만, 알고리즘에서는 그 크기(속도) $`v_i(t_k)`$만 사용한다.

선반 멈춤 알고리즘

본 섹션에서는 트래젝토리 내의 선반 멈춤을 결정하는 휴리스틱 알고리즘이 설명된다. 이 알고리즘은 교정 과정에 작은 데이터 세트를 사용하고, 더 단순한 추적 시스템(2D 벡터 $`\mathbf{x}`$와 각도 $`\theta`$가 제공되는)에서도 작동하도록 설계되었다.

주요 아이디어는 고객의 트래젝토리에서 선반 $`j`$ 앞에 멈춤을 나타내는 부분이 다음과 같은 조건을 만족하는 것과 관련이 있다. 이는 3개의 파라미터로 정의된다: $`T_B`$(최소 둘러보기 시간), $`\Delta_B`$(선반까지의 최대 거리) 및 $`v_B`$(최대 둘러보기 속도).

더 구체적으로, 각 고객 $`i`$에 대해 단일 후보 선반(또는 후보가 없는 경우)을 다음과 같이 식별한다. 먼저, 선반의 표면 또는 장애물 $`\mathbf{s}_k`$와 고객 방향 벡터의 양수 배수로 정의된 반직선

MATH

\begin{equation}
\lambda \mathbf{n}_i.
\end{equation}

클릭하여 더 보기

사이의 모든 교차점을 찾는다.

선반 j을 둘러보는 것으로 식별될 수 있는 고객의 상단 뷰. λ_j은 가장 가까운 선반까지의 거리이고, λ_s는 더 먼 선반 s 방향으로의 거리이다.

이후 각 교차점을 선반 또는 장애물 $`l`$과 연결하고 교차점에서 $`\lambda`$가 가진 값을 사용하여 식별한다.

MATH

\begin{equation}
\lambda_{l}>0,
\end{equation}

클릭하여 더 보기

그리고 가장 짧은 거리를 찾는다.

MATH

\begin{equation}
    j=\text{argmin}_l \lambda_l.
\end{equation}

클릭하여 더 보기

가장 가까운 거리가 상호작용하는 선반 표면에 해당한다면,

MATH

\begin{equation}
  j\in 1,\hdots,n_s,
\end{equation}

클릭하여 더 보기

이 선반이 후보로 식별된다(그렇지 않으면, 후보 선반은 없다).

이 계산을 통해 우리는 단순히 $`\lambda_j`$로 정의되는 선반까지의 거리를 얻는다.

멈춤은 다음과 같은 시간 구간

MATH

\begin{equation}
t_k\in [t_s,t_f], \; t_f-t_s\geq T_B
\end{equation}

클릭하여 더 보기

동안 모든 $`k`$에 대해 다음 조건을 만족할 때 정의된다:

후보 선반 $`j`$가 변하지 않는다,
선반까지의 거리는
MATH
```
\begin{equation}
\lambda_j(t_k)\leq\Delta_B,
\end{equation}
```
클릭하여 더 보기
그리고 고객의 속도는 임계값보다 작다.
MATH
```
\begin{equation}
v_i(t_k)\leq v_B.
\end{equation}
```
클릭하여 더 보기

각 고객 $`i`$, 선반 $`j`$ 및 시간 $`k`$에 대해 알고리즘은 다음과 같은 부울 출력을 생성한다:

MATH

\begin{equation}
   \label{eq:output}
S^i_j(t_k)
\end{equation}

클릭하여 더 보기

조건이 만족되면 1, 그렇지 않으면 0의 값을 가진다.

알고리즘 파라미터 교정

3개의 파라미터($`T_B`$, $`\Delta_B`$ 및 $`v_B`$)는 인간 라벨링을 기반으로 한 교정 프로세스를 통해 최적화된다. 우리는 두 개의 교정 세트를 구축하였다, 첫 번째는 $`n_1=279`$ 트래젝토리가 있는 $`s1`$, 그리고 두 번째는 $`n_2=270`$ 트래젝토리가 있는 $`s2`$이다. 각 트래젝토리에 대해 위치, 속도 및 자세 정보를 포함하는 2D 비디오를 생성하고 이를 인간 리뷰어가 사용하여 선반 둘러보기 행동을 식별 및 인코딩한다.

$`n_l=4`$ 명의 인간 리뷰어는 전체 트래젝토리 세트를 분석하고, 고객 $`i`$가 시간 $`k`$에 선반 $`j`$ 앞에서 멈춘 것을 식별하였다. 이러한 라벨링을 기반으로 각 고객 $`i`$, 시간 $`k`$, 선반 $`j`$는 투표 시스템을 통해 “방문 부울” 값을 받는다.

즉, $`n^i_j(t_k)`$를 시간 $`k`$에 $`i`$가 $`j`$ 앞에서 멈추었다고 식별한 리뷰어의 수로 정의하면,

MATH

\begin{equation}
V^i_j(t_k)=\begin{cases}
1, \text{ if } n^i_j(t_k)>n_l/2,\\
0, \text{ if } n^i_j(t_k)\leq n_l/2.
\end{cases}
\end{equation}

클릭하여 더 보기

그러면 참 양성의 수는 다음과 같이 정의된다:

MATH

\begin{equation}
    TP=\#\left(k: S^i_j(t_k)=V^i_j(t_k)=1\right),
\end{equation}

클릭하여 더 보기

여기서 $`S^i_j(t_k)`$는 알고리즘의 출력(eq. [eq:output])이다.

ArXiv 원문 PDF 보기

📊 논문 시각자료 (Figures)

쇼핑객의 서랍기 방문 분석 실시간 추적 기술로 고객 행동 파악

📝 원문 정보

📝 초록

💡 논문 해설

📄 논문 발췌 (ArXiv Source)

서론

관련 작업

데이터 수집 및 처리

대상 매장

매장 맵

사람 추적 시스템

데이터 처리

선반 멈춤 알고리즘

알고리즘 파라미터 교정

📊 논문 시각자료 (Figures)

감사의 말씀

목차

목차

📝 원문 정보

📝 초록

💡 논문 해설

📄 논문 발췌 (ArXiv Source)

서론

관련 작업

데이터 수집 및 처리

대상 매장

매장 맵

사람 추적 시스템

데이터 처리

선반 멈춤 알고리즘

알고리즘 파라미터 교정

📊 논문 시각자료 (Figures)

감사의 말씀

관련 게시글

3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

AI 강화된 양자점 해밀토니안 튜닝을 통한 마이저나 모드 형성

AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

검색 시작

검색 결과 없음