AI 연구 도우미 활용과 참여 행동 분석

초록

본 논문은 LLM 기반 검색·생성 플랫폼에 탑재된 두 가지 과학 연구 도구(문헌 탐색 인터페이스와 질문‑답변 인터페이스)에서 수집한 20만 건 이상의 사용자 질의와 상호작용 로그를 정제·공개한다. 데이터 분석을 통해 사용자는 전통적 검색보다 길고 복합적인 질의를 제출하고, 시스템을 협업 파트너로 인식해 초안 작성·연구 공백 탐색 등을 위임한다. 생성된 응답을 지속적인 산출물로 다루며, 인용 증거를 비선형적으로 탐색한다. 사용 경험이 쌓일수록 질의는 더 목표 지향적이 되고 인용 검증 행동이 강화되지만, 키워드형 질의는 여전히 존재한다. 논문은 새로운 질의 의도 분류 체계와 설계·평가 시사점을 제공한다.

상세 요약

Asta Interaction Dataset은 LLM‑기반 Retrieval‑Augmented Generation(RAG) 플랫폼에 실제 배포된 두 도구, 즉 ‘Literature Discovery Interface’와 ‘Scientific QA Interface’에서 수집된 200,000여 건의 질의·응답 로그와 메타데이터를 포함한다. 데이터는 사용자 익명화, IP 마스킹, 시간 스탬프 정규화 등 개인정보 보호 절차를 거쳐 공개되었으며, 질의 텍스트, 시스템 응답, 인용된 논문 메타정보, 클릭·스크롤·탐색 경로 등이 구조화된 형태로 제공된다.

분석 결과, 평균 질의 길이는 12.4 토큰으로 전통적인 웹 검색(≈5~6 토큰)보다 두 배 이상 길며, 복합적인 연구 목적(가설 검증, 실험 설계, 논문 초안 작성 등)을 담고 있다. 사용자는 시스템을 ‘협업 파트너’로 인식하고, “다음 문단을 작성해줘”, “연구 공백을 찾아줘”와 같은 고차원 작업을 위임한다. 이는 기존 검색이 정보 제공에 머무는 반면, AI 도우미는 생성·편집·요약까지 포괄하는 역할을 수행한다는 점을 시사한다.

또한, 생성된 응답은 단일 세션 내에서만 소비되지 않는다. 사용자는 동일 응답을 북마크하거나, 인용된 논문을 클릭해 원문을 열고, 그 후 다시 응답 페이지로 돌아가는 ‘비선형 탐색 루프’를 반복한다. 이러한 행동은 AI가 제공하는 텍스트가 ‘지속 가능한 산출물’로 전환됨을 보여준다.

경험 축적에 따른 변화도 뚜렷하다. 초보 사용자는 키워드 중심의 짧은 질의를 많이 제출하지만, 사용 시간이 30일을 초과한 사용자들은 질의를 구체화하고, 인용 문헌을 검증하기 위해 ‘Citation Click’, ‘Citation Scroll’ 같은 행동을 2.3배 이상 증가시킨다. 그러나 키워드형 질의는 전체 사용자 중 18% 이상에서 지속적으로 나타나, 복합 질의와 병행되는 ‘빠른 탐색’ 필요성을 반영한다.

논문은 이러한 관찰을 토대로 7가지 질의 의도(탐색, 요약, 초안 작성, 공백 탐색, 검증, 비교, 기타)로 구성된 새로운 taxonomy를 제안한다. 이 분류는 실험 설계 시 실제 사용자 행동을 재현하고, 평가 메트릭을 질의 의도별로 차별화하는 데 활용될 수 있다.

디자인 시사점으로는 (1) 질의 입력 UI에 ‘작업 목표 선택’ 옵션을 제공해 사용자가 의도를 명시하도록 돕고, (2) 생성된 텍스트와 인용 증거를 연동하는 ‘연결된 산출물 뷰’를 구현해 비선형 탐색을 지원하며, (3) 사용자 경험 단계에 따라 맞춤형 프롬프트 가이드를 제공해 초보 사용자의 학습 곡선을 완화하는 것이 제안된다.

평가 측면에서는 기존 벤치마크가 단일 질의·단일 응답의 정확도에 초점을 맞추는 반면, Asta 데이터는 ‘연속 상호작용’, ‘산출물 재사용’, ‘인용 검증’ 등을 포함한 다차원 평가 프레임을 구축할 근거를 제공한다. 따라서 향후 연구는 ‘지속적 협업 효율성’, ‘사용자 신뢰 형성’, ‘지식 축적 효과’ 등을 측정하는 새로운 메트릭을 개발해야 할 필요가 있다.

초록

상세 요약

📜 논문 원문 (영문)