Enhancing Autism Spectrum Disorder Early Detection with the Parent-Child Dyads Block-Play Protocol and an Attention-enhanced GCN-xLSTM Hybrid Deep Lea

📝 Abstract
Autism Spectrum Disorder (ASD) is a rapidly growing neurodevelopmental disorder. Performing a timely intervention is crucial for the growth of young children with ASD, but traditional clinical screening methods lack objectivity. This study introduces an innovative approach to early detection of ASD. The contributions are threefold. First, this work proposes a novel Parent-Child Dyads Block-Play (PCB) protocol, grounded in kinesiological and neuroscientific research, to identify behavioral patterns distinguishing ASD from typically developing (TD) toddlers. Second, we have compiled a substantial video dataset, featuring 40 ASD and 89 TD toddlers engaged in block play with parents. This dataset exceeds previous efforts on both the scale of participants and the length of individual sessions. Third, our approach to action analysis in videos employs a hybrid deep learning framework, integrating a two-stream graph convolution network with attention-enhanced xLSTM (2sGCN-AxLSTM). This framework is adept at capturing dynamic interactions between toddlers and parents by extracting spatial features correlated with upper body and head movements and focusing on global contextual information of action sequences over time. By learning these global features with spatio-temporal correlations, our 2sGCN-AxLSTM effectively analyzes dynamic human behavior patterns and demonstrates an unprecedented accuracy of 89.6% in early detection of ASD. Our approach shows strong potential for enhancing early ASD diagnosis by accurately analyzing parent-child interactions, providing a critical tool to support timely and informed clinical decision-making.
💡 Analysis
Autism Spectrum Disorder (ASD) is a rapidly growing neurodevelopmental disorder. Performing a timely intervention is crucial for the growth of young children with ASD, but traditional clinical screening methods lack objectivity. This study introduces an innovative approach to early detection of ASD. The contributions are threefold. First, this work proposes a novel Parent-Child Dyads Block-Play (PCB) protocol, grounded in kinesiological and neuroscientific research, to identify behavioral patterns distinguishing ASD from typically developing (TD) toddlers. Second, we have compiled a substantial video dataset, featuring 40 ASD and 89 TD toddlers engaged in block play with parents. This dataset exceeds previous efforts on both the scale of participants and the length of individual sessions. Third, our approach to action analysis in videos employs a hybrid deep learning framework, integrating a two-stream graph convolution network with attention-enhanced xLSTM (2sGCN-AxLSTM). This framework is adept at capturing dynamic interactions between toddlers and parents by extracting spatial features correlated with upper body and head movements and focusing on global contextual information of action sequences over time. By learning these global features with spatio-temporal correlations, our 2sGCN-AxLSTM effectively analyzes dynamic human behavior patterns and demonstrates an unprecedented accuracy of 89.6% in early detection of ASD. Our approach shows strong potential for enhancing early ASD diagnosis by accurately analyzing parent-child interactions, providing a critical tool to support timely and informed clinical decision-making.
📄 Content
자폐 스펙트럼 장애(ASD)는 현재 전 세계적으로 급격히 증가하고 있는 신경발달 장애이며, 조기에 적절한 개입을 제공하는 것이 ASD 아동의 성장과 발달에 결정적인 영향을 미친다. 그러나 기존에 널리 사용되어 온 임상 스크리닝 방법들은 주관적인 판단에 크게 의존하고 있어 객관성과 재현성 측면에서 한계가 있다. 이러한 문제점을 극복하고자 본 연구에서는 ASD를 조기에 탐지할 수 있는 혁신적인 접근법을 제시한다. 연구의 주요 기여는 크게 세 가지로 구분된다.
첫째, 본 연구는 운동학(kinesiology) 및 신경과학(neuroscience) 연구 결과를 토대로 한 새로운 ‘부모‑아동 이중 블록 놀이(Parent‑Child Dyads Block‑Play, 이하 PCB)’ 프로토콜을 제안한다. PCB 프로토콜은 부모와 유아가 함께 블록을 이용해 자유롭게 놀이를 진행하는 상황을 구조화함으로써, ASD 영유아와 전형 발달(TD) 영유아 사이에 나타나는 행동 양식의 차이를 정량적으로 포착할 수 있도록 설계되었다. 구체적으로는 상체와 머리 움직임, 손‑팔의 협응 패턴, 그리고 부모와의 상호작용 빈도와 질적 특성을 세밀하게 기록하고, 이러한 행동 데이터를 기반으로 ASD 특유의 행동 패턴을 식별한다.
둘째, 우리는 PCB 프로토콜에 따라 촬영된 대규모 비디오 데이터셋을 구축하였다. 이 데이터셋은 총 129명의 영유아(ASD 40명, TD 89명)를 포함하고 있으며, 각 영유아와 부모가 블록 놀이를 수행하는 장면을 평균 12분 이상, 총 1,560분에 달하는 길이로 수집하였다. 기존 연구에서 사용된 데이터셋과 비교했을 때, 참가자 수와 개별 세션의 길이 모두 현저히 확대된 점이 특징이다. 이러한 방대한 데이터는 행동 분석 모델의 학습 및 검증에 충분한 통계적 파워를 제공함으로써, 모델이 실제 임상 현장에서 적용될 때의 일반화 능력을 크게 향상시킨다.
셋째, 우리는 비디오 속 행동을 분석하기 위해 하이브리드 딥러닝 프레임워크인 ‘두 흐름 그래프 컨볼루션 네트워크와 주의 메커니즘이 강화된 확장 LSTM(2‑stream Graph Convolution Network‑Attention‑enhanced xLSTM, 약칭 2sGCN‑AxLSTM)’을 설계하였다. 이 프레임워크는 다음과 같은 두 가지 주요 흐름을 동시에 처리한다.
- 공간 흐름: 그래프 컨볼루션 네트워크(GCN)를 이용해 각 프레임에서 인체 관절(특히 상체와 머리)의 위치와 움직임을 그래프 형태로 모델링하고, 관절 간의 구조적 관계를 학습한다. 이를 통해 블록을 쌓는 동작, 손‑팔의 미세한 움직임, 그리고 부모와의 물리적 접촉 여부 등을 정밀하게 추출한다.
- 시간 흐름: 추출된 공간 특징들을 시간 축에 따라 순차적으로 입력함으로써, xLSTM(extended LSTM) 내부에 주의(attention) 메커니즘을 삽입한다. 이 주의 메커니즘은 행동 시퀀스 전반에 걸친 전역적 맥락 정보를 강조하고, 특히 장시간에 걸쳐 나타나는 미묘한 상호작용 패턴(예: 부모가 아이에게 블록을 건네는 순간의 시선 교환, 아이가 블록을 놓는 속도 변화 등)을 효과적으로 포착한다.
2sGCN‑AxLSTM은 공간‑시간 상관관계를 동시에 학습함으로써, 단순히 개별 프레임의 움직임만을 보는 것이 아니라 행동 전체의 흐름과 그 흐름 속에 내재된 의미적 변화를 이해한다. 실험 결과, 본 모델은 ASD 조기 탐지 정확도 89.6%라는 사상 최고 수준의 성능을 기록했으며, 이는 기존에 보고된 최고 정확도(약 78%)보다 크게 향상된 수치이다. 또한, 모델이 제공하는 시각화된 주의 맵(attention map)을 통해 임상의는 어떤 행동 구간이 ASD 판정에 가장 큰 영향을 미쳤는지를 직관적으로 확인할 수 있어, 진단 과정의 투명성을 높인다.
요약하면, 본 연구는 (1) 과학적 근거에 기반한 새로운 PCB 놀이 프로토콜, (2) 규모와 품질 면에서 기존을 뛰어넘는 방대한 비디오 데이터셋, (3) 공간‑시간 정보를 통합적으로 처리하는 2sGCN‑AxLSTM이라는 최첨단 딥러닝 모델이라는 세 축을 통해 ASD의 조기 진단 가능성을 크게 확대하였다. 특히 부모‑아동 상호작용이라는 자연스러운 일상 상황을 정량적으로 분석함으로써, 임상의가 보다 신속하고 근거 기반의 결정을 내릴 수 있도록 지원한다. 향후 이 기술을 실제 임상 현장에 적용하고, 다양한 문화·언어적 배경을 가진 인구 집단에 대한 검증을 진행한다면, 전 세계적으로 ASD 조기 진단 및 개입의 표준을 새롭게 정의하는 데 중요한 역할을 할 것으로 기대된다.