연령을 넘어선 앱 리뷰 나이와 사용 경험의 숨은 이야기
초록
본 연구는 구글 플레이 스토어에 게시된 4,163개 앱 리뷰 중 1,429개를 연령 관련 리뷰로 식별하고, 머신러닝·딥러닝·대형언어모델(LLM) 8종을 활용해 자동 탐지 성능을 평가하였다. RoBERTa 모델이 92.46%의 정밀도로 최고 성능을 보였으며, 정성 분석을 통해 ‘콘텐츠 연령 적합성’, ‘언어·추천’, ‘연령 인증·접근 장벽’, ‘연령별 사용성·접근성’, ‘프라이버시·안전’, ‘상호작용·관계’, ‘기능·요청’ 등 6가지 주요 주제를 도출하였다. 연구 결과는 연령별 사용자 요구를 반영한 설계·정책 개선 방안을 제시한다.
상세 분석
본 논문은 모바일 앱 리뷰에서 연령에 관한 논의를 자동으로 탐지하고, 그 내용의 특성을 정성적으로 분석함으로써 연령 포괄적 설계의 필요성을 강조한다. 데이터 수집 단계에서는 Shahin et al.이 구축한 7백만 리뷰 중 70개 인기 안드로이드 앱을 대상으로 4,163개의 샘플을 무작위 추출하였다. 이후 연구진은 ‘어린이’, ‘청소년’, ‘중년’, ‘노인’ 등 29개의 n‑gram 기반 키워드 리스트를 설계해 초기 필터링을 수행하고, 두 명 이상의 라벨러가 교차 검증한 결과 1,429개의 연령 관련 리뷰와 2,734개의 비연령 리뷰를 확보하였다.
모델링에서는 전통적인 머신러닝(SVM, Random Forest), 딥러닝(LSTM, CNN), 그리고 사전학습된 트랜스포머 계열 모델(BERT, RoBERTa, DistilBERT, GPT‑2) 등 총 8가지 접근법을 비교하였다. 학습 및 검증은 80:20 비율의 트레인‑테스트 분할을 사용했으며, 주요 평가지표는 정밀도, 재현율, F1‑score, 정확도이다. RoBERTa가 92.70% 정밀도, 92.39% 재현율, 92.45% F1, 92.39% 정확도로 전반적인 최고 성능을 기록했으며, 특히 짧고 비구조적인 리뷰 텍스트에서 의미적 뉘앙스를 잘 포착한다는 점이 돋보인다.
정성 분석 단계에서는 RoBERTa가 선별한 1,429개의 연령 관련 리뷰를 주제 모델링과 수작업 코딩을 통해 6개의 핵심 테마로 집계하였다. 첫 번째 ‘콘텐츠 연령 적합성’은 어린이용 앱에서 부적절한 광고·이미지가 노출되는 사례를, 두 번째 ‘언어·추천’은 연령대별 맞춤형 알림·설명 문구의 필요성을 강조한다. ‘연령 인증·접근 장벽’은 과도하거나 오류가 잦은 연령 확인 절차가 사용성을 저해한다는 불만을, ‘연령별 사용성·접근성’은 시각·인지·운동 능력 저하를 고려한 UI·UX 설계 요구를 제시한다. ‘프라이버시·안전’은 데이터 수집·공유에 대한 연령별 민감도를, 마지막 ‘상호작용·관계·기능·요청’은 부모·자녀 간 공유 기능 및 연령 맞춤형 신규 기능 제안을 포함한다.
연구는 다음과 같은 기여를 명시한다. (1) 연령 논의를 최초로 체계적으로 탐색한 점, (2) 다중 모델을 통한 자동 탐지 파이프라인 구축, (3) 연령 관련 사용자 요구를 정량·정성적으로 조명한 점, (4) 개발자를 위한 구체적 설계·정책 권고안을 제공한 점이다. 한계로는 데이터가 구글 플레이에 국한돼 iOS 생태계와 문화적 차이를 반영하지 못한다는 점, 라벨링 과정에서 주관적 판단이 개입될 가능성, 그리고 최신 LLM(GPT‑4 등) 대비 성능 비교가 부족하다는 점을 들 수 있다. 향후 연구에서는 다국어·다플랫폼 데이터 확대, 연령·성별·문화 교차 분석, 그리고 최신 생성형 모델을 활용한 실시간 리뷰 모니터링 시스템 구축을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기