베디에스엘 스포터: 문화 맞춤형 저자원 손짓 언어 인식을 위한 경량 트랜스포머 프레임워크
초록
BdSL‑SPOTER는 미디어파이프 홀리스틱으로 추출한 2D 포즈 키포인트를 입력으로, 4계층 경량 트랜스포머와 학습 가능한 위치 인코딩을 결합한 모델이다. 벵골어 손짓 언어의 특수한 서명 공간을 반영한 정규화와 커리큘럼 학습을 적용해 제한된 BdSL‑W60 데이터셋(9,307 영상, 60클래스)에서 Top‑1 정확도 97.92%를 달성했으며, 파라미터 0.85 M·FLOPs 감소와 127 FPS 실시간 추론을 구현한다.
상세 분석
BdSL‑SPOTER는 기존 SPOTER 구조를 벵골어 손짓 언어(BdSL)의 문화적·언어적 특성을 반영하도록 재설계하였다. 첫 번째 핵심은 데이터 전처리 단계에서 MediaPipe Holistic을 이용해 54개의 2D 랜드마크(양손 21점씩, 상체 12점)를 추출하고, BdSL 특유의 좁은 서명 공간을 고려해 α=0.85의 스케일 파라미터를 적용한 정규화를 수행한다. 이는 서명 공간이 서구 언어보다 컴팩트하기 때문에, 좌표의 절대값 차이가 과도하게 모델에 영향을 주는 것을 방지한다.
두 번째 핵심은 학습 가능한 위치 인코딩(L_pos)이다. 기존 트랜스포머에서 사용되는 고정 사인 파형 대신, 입력 시퀀스와 동일 차원의 파라미터를 학습함으로써 시간적·공간적 변동성을 동적으로 보정한다. BdSL은 동일 제스처라도 수행 속도와 손동작의 미세 차이가 크게 다를 수 있기 때문에, 이 접근법이 특히 유효하다.
모델 아키텍처는 4개의 트랜스포머 인코더 레이어와 9개의 멀티헤드 셀프 어텐션을 채택한다. 레이어 수를 최소화함으로써 과적합 위험을 낮추고, 파라미터 수를 0.847 M으로 제한한다. 각 레이어는 d_model=108, d_ff=512, GELU 활성화, 레이어 정규화를 포함한다. 인코더 출력은 시퀀스 차원 평균 풀링(Global Average Pooling) 후 3개의 완전 연결 층을 거쳐 60개의 클래스에 대한 소프트맥스 확률을 산출한다.
학습 전략으로는 커리큘럼 러닝을 도입해 초기 3에폭 동안 시퀀스 길이를 점진적으로 늘리는 ‘시퀀스 워밍업’ 방식을 사용한다. 이는 초기 그래디언트 변동성을 감소시켜 빠른 수렴을 돕는다. 또한, 라벨 스무딩(ε=0.1)과 10⁻⁴의 가중치 감쇠, 0.15 드롭아웃을 적용해 과적합을 억제한다. 데이터 증강으로는 프레임 드롭아웃(10%), 좌표 노이즈(±2픽셀), 수평 플리핑을 적용해 모델의 일반화 능력을 강화하였다.
성능 평가에서는 BdSL‑W60 벤치마크에서 Top‑1 정확도 97.92%, Top‑5 99.80%, Macro F1 0.979를 기록했다. 이는 기존 Bi‑LSTM(75.10%) 대비 22.82%p, 기존 SPOTER(82.40%) 대비 15.52%p 상승이다. 파라미터와 FLOPs 측면에서도 29.4% 감소, 추론 속도는 127 FPS로 실시간 적용이 가능하다.
Ablation Study에서는 레이어 수, 어텐션 헤드 수, 정규화 방식, 위치 인코딩 종류, 커리큘럼 학습 여부 등을 변형해 각각의 기여도를 정량화하였다. 4‑layer‑9‑head 구성이 가장 높은 정확도를 보였으며, 학습 가능한 위치 인코딩이 고정 사인 파형 대비 +2.32%p, 문화 맞춤형 정규화가 +4.42%p 향상을 제공한다.
오류 분석에서는 60클래스 중 52클래스(86.7%)에서 100% 정확도를 달성했으며, 남은 오류는 주로 손 모양이 유사하지만 시간적 움직임이 다른 클래스(예: 클래스 33 vs 47)에서 발생했다. 이는 향후 시간적 특징 추출 강화를 위한 모션 흐름 모델링(예: 그래프 기반 동작 인코더) 연구의 여지를 시사한다.
전반적으로 BdSL‑SPOTER는 저자원 지역 손짓 언어에 특화된 데이터 전처리와 경량 트랜스포머 설계, 효율적인 학습 전략을 결합해 높은 정확도와 실시간 성능을 동시에 달성한 사례로, 다른 저자원 서명 언어에도 적용 가능한 범용 프레임워크로 평가할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기