소셜 미디어에서 대형 언어 모델의 역할과 활용
초록
본 논문은 X(구 트위터) 플랫폼에서 xAI의 대형 언어 모델 Grok이 공개적으로 호출되는 방식을 3개월간 수집·분석한다. Grok은 전체 요청의 62%에 응답하고, 요청의 절반 이상이 영어이며, 응답 게시물의 절반은 48시간 내 조회수가 20 이하로 낮은 참여도를 보인다. 저자들은 10가지 사회적 역할을 정의하고, 41,735건의 상호작용을 통해 Grok이 정보 제공, 사실 검증, 의견·조언 제공, 창작 등 다양한 용도로 사용됨을 확인한다. 특히 분쟁 관리 역할(진실 중재자, 옹호자, 적대자)도 빈번히 나타난다. 사용자 프로필 분석 결과, 활발히 활동하는 장기 사용자일수록 특정 관심사와 연계된 역할을 기대한다는 점을 제시한다.
상세 분석
이 연구는 기존의 개인·1:1 챗 로그 분석과 달리 공개 소셜 네트워크 상에서 LLM이 수행하는 사회적 기능을 정량·정성적으로 조명한다. 데이터 수집은 X의 공식 API를 활용해 2025년 8월 15일부터 11월 17일까지 3개월간 진행했으며, 총 41,735개의 Grok 상호작용 체인을 142,895개의 게시물로 구성하였다. 체인 설계는 ‘Grok Prompt(사용자 호출) → Grok Reply(모델 응답)’을 중심으로, 필요 시 ‘Direct Parent’와 ‘Conversation Root’를 포함해 맥락을 확보한다. 이는 모델이 단일 트윗에만 반응하는 것이 아니라, 스레드 깊이와 위치에 따라 역할이 변한다는 가설을 검증하기 위한 설계이다.
통계적으로 Grok은 전체 호출 중 62%에 응답했으며, 언어별 분포는 영어 51%가 가장 높고, 그 외 10개 언어가 뒤를 이었다. 응답 게시물의 참여도는 매우 낮아, 48시간 후 조회수·좋아요·리트윗·답글이 20 이하인 경우가 절반에 달한다. 이는 공개 플랫폼에서 AI 응답이 인간 사용자 사이에서 빠르게 소멸하거나, ‘스팸’처럼 인식될 가능성을 시사한다.
주요 기여는 10가지 역할(Roles) taxonomy이다. 저자들은 초기 인코딩 단계에서 4명의 연구자가 500개 샘플을 라벨링해 ‘정보 제공’, ‘사실 검증’, ‘의견·조언’, ‘창작·생성’ 등 4가지 사용 카테고리를 도출하고, 이를 기반으로 LLM 기반 자동 분류기를 구축해 전체 데이터에 적용했다. 역할 분석에서는 ‘진실 중재자(Truth Arbiter)’, ‘옹호자(Advocate)’, ‘적대자(Adversary)’와 같은 분쟁 관리 역할이 눈에 띄었다. 특히 사실 검증 요청은 스레드 깊이가 깊을수록, 의견·조언이나 창작 요청은 스레드 시작부에서 더 많이 나타나는 패턴을 보였다. 이는 사용자가 논쟁이 진행 중일 때 AI를 ‘중재자’로 활용하고, 초기 단계에서는 아이디어 발산 도구로 활용한다는 사회적 기대를 반영한다.
사용자 프로필 분석에서는 31,111명의 계정 메타데이터를 수집해 활동량(게시물 수, 계정 연령)과 바이오 텍스트를 토픽 모델링했다. 결과는 고활동 사용자(게시물 ≥ 1,000개, 계정 연령 ≥ 1.6년)가 전체의 75% 이상을 차지함을 보여준다. 또한 정치·기술·문화 등 특정 관심사가 드러나는 사용자군은 해당 관심사와 연관된 역할(예: 정치적 논쟁에서는 ‘진실 중재자’ 역할, 기술 토론에서는 ‘정보 제공’ 역할)을 더 많이 기대한다는 상관관계가 확인되었다.
연구의 한계로는 API 제한으로 인한 샘플링 편향, 삭제된 게시물에 대한 정보 손실, 그리고 ‘응답이 낮은 참여도’를 단순히 부정적 현상으로 해석하기엔 부족한 정성적 맥락이 있다. 향후 연구는 실시간 참여도 변화를 추적하거나, 사용자 설문을 통해 AI 역할에 대한 인식 차이를 정밀히 측정할 필요가 있다.
전반적으로 이 논문은 대형 언어 모델이 공개 소셜 미디어에서 단순 정보 제공을 넘어 분쟁 중재, 의견 형성, 심지어 적대적 입장까지 수행할 수 있음을 실증한다. 이는 AI 윤리·거버넌스 논의에서 ‘공공 영역에서의 역할 정의’와 ‘플랫폼 정책 설계’에 중요한 근거를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기