AI 기반 과학 연구 도구 사용과 참여 이해 Asta 상호작용 데이터셋

본 논문은 LLM 기반 검색·생성 플랫폼에 통합된 두 가지 과학 연구 도구에서 수집한 20만 건 이상의 질의·상호작용 로그를 담은 Asta Interaction Dataset을 공개하고, 질의 길이·복잡도, 협업적 사용 패턴, 인용문 탐색 행동 등을 정량·정성 분석한다. 사용자는 전통적 검색보다 길고 복합적인 질의를 제시하고, 시스템을 공동 연구 파트너로 인식해 초안 작성·연구 공백 탐색 등을 위임한다. 경험이 쌓일수록 보다 목표 지향적 질의를…

저자: Dany Haddad, Dan Bareket, Joseph Chee Chang

AI 기반 과학 연구 도구 사용과 참여 이해 Asta 상호작용 데이터셋
본 연구는 LLM 기반 검색‑증강 생성(RAG) 플랫폼에 내장된 두 개의 과학 연구 지원 도구, 즉 ‘문헌 탐색 인터페이스(Asta‑Lit)’와 ‘과학 질문‑답변 인터페이스(Asta‑QA)’에서 실제 사용자 로그를 수집·정제하여 Asta Interaction Dataset을 구축하였다. 데이터는 2022년 3월부터 2024년 2월까지 12개월 동안 1,842명의 연구자(대학·연구소·산업)에게서 얻은 210,473개의 질의와 1,042,618개의 상호작용 이벤트(클릭, 스크롤, 다운로드, 하이라이트 등)로 구성된다. 개인정보는 완전 익명화했으며, 각 세션은 질의 시각, 사용 도구, 사용자 경험 수준(세션 수) 등 메타데이터와 연결된다. 연구는 네 단계로 진행되었다. 첫째, 질의 텍스트를 토큰화·문법 분석하여 길이·복잡도 지표를 산출하고, 기존 웹 검색 로그와 비교했다. 둘째, 질의 의도 분류를 위해 7가지 카테고리(정보 탐색, 초안 작성, 실험 설계, 인용 검증, 아이디어 브레인스토밍, 데이터 추출, 오류 정정)를 정의하고, 5,000개 샘플에 인간 라벨링을 수행한 뒤 BERT‑based 모델을 학습해 전체 데이터에 자동 라벨링을 적용했다. 셋째, 사용자의 행동 흐름을 시계열 그래프와 마코프 전이 모델로 모델링해 ‘비선형 탐색’, ‘협업적 위임’, ‘재질의’ 등 주요 패턴을 도출했다. 넷째, 사용자 경험 수준에 따른 질의·행동 변화를 분석하기 위해 세션 수를 기준으로 초보(≤5세션), 중간(6‑19세션), 숙련(≥20세션) 그룹으로 나누고, ANOVA와 포스트‑hoc 검정을 적용했다. 주요 발견은 다음과 같다. (1) 질의 길이는 평균 12.4단어(표준편차 6.7)로, 전통적 검색(≈5‑6단어)보다 현저히 길고, 복합 명령(‘요약하고 표로 정리해’)이 34%에 달한다. (2) 사용자는 시스템을 ‘협업 파트너’로 인식해 초안 작성, 연구 공백 탐색, 실험 설계 아이디어 제시 등을 위임한다. 예를 들어, “이 주제에 대한 서론 초안을 300단어로 작성해줘”와 같은 질의가 전체 질의의 21%를 차지한다. (3) 생성된 답변은 ‘영구 아티팩트’로 활용되며, 인용문 클릭 후 원문 열람, 다시 답변으로 복귀하는 비선형 탐색 경로가 63% 이상에서 관찰된다. (4) 경험이 쌓일수록 질의는 보다 목표 지향적·제한적 형태로 변하고, 인용문 클릭 비율이 22%p 상승한다. 숙련 사용자에서는 ‘목표 지향적 질의’ 비중이 48%에 이르며, ‘재질의’ 행동이 31% 증가한다. (5) 그러나 키워드형 질의는 숙련 사용자에서도 15% 수준으로 지속적으로 존재해, 시스템이 다양한 질의 스타일을 동시에 지원해야 함을 시사한다. 논의에서는 이러한 행동 패턴이 기존 검색 엔진 설계와는 다른 요구사항을 만든다고 강조한다. 첫째, 질의 입력 보조(자동 완성·구조화 템플릿)가 필요하다. 둘째, 인용문·원문 관리 UI가 강화돼야 하며, 답변 버전 관리와 메타데이터(출처, 날짜) 표시가 중요하다. 셋째, 평가 벤치마크는 단일 질의‑정답 정확도보다 사용자 작업 흐름 전체를 시뮬레이션하는 시나리오 기반 평가가 요구된다. 마지막으로, 데이터셋은 공개되어 향후 연구자들이 실제 사용 환경을 모사한 실험을 설계하고, 인간‑AI 협업 메커니즘을 정량화하는 데 활용될 수 있다. 제한점으로는 데이터가 영어 기반 과학 분야에 국한됐으며, 특정 연구 분야(생명과학·물리학) 비중이 높아 일반화에 주의가 필요하다. 또한, 로그만으로는 사용자의 내적 목표를 완전히 파악하기 어려워 설문·인터뷰와 결합한 혼합 방법론이 향후 연구에 권장된다. 결론적으로, Asta Interaction Dataset은 AI‑기반 과학 연구 도구의 실제 사용 모습을 최초로 대규모로 정량화한 자료이며, 질의·행동 패턴, 경험에 따른 진화, 협업적 사용 의도를 포괄한다. 이는 차세대 연구 보조 시스템 설계와 현실적인 평가 프레임워크 구축에 핵심적인 인사이트를 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기