자동 회색문헌 추출을 위한 프롬프트 기반 ML 도구 GLiSE
초록
GLiSE는 연구 주제 프롬프트를 입력받아 GitHub, Stack Overflow, Google Search 등 SE 전용 소스에 맞는 쿼리를 자동 생성하고, 검색 결과를 임베딩 기반 분류기로 필터·랭킹하여 재현 가능한 회색문헌 코퍼스를 빠르게 구축한다.
상세 분석
GLiSE는 회색문헌( Grey Literature ) 수집의 세 가지 핵심 난관—소스 이질성, 메타데이터 부재, 재현성 부족—을 동시에 해결하도록 설계되었다. 첫 번째 단계에서는 사용자가 자유 텍스트 형태로 제시한 연구 의도를 LLM(OpenAI API)에게 전달하고, 선택된 플랫폼별( GitHub, Stack Overflow, Google) 특화된 쿼리 템플릿을 자동으로 생성한다. 여기서 온도, 언어 제한, 시간 범위 등 파라미터를 사용자 정의할 수 있어 실험적 재현성을 보장한다. 두 번째 단계에서는 생성된 쿼리를 각 플랫폼의 공개 API에 전달해 페이지네이션, 재시도 로직, provenance 기록을 수행한다. 결과물은 URL, 제목, 스니펫 등 기본 메타데이터와 함께 GitHub README, Google 메타설명 등 플랫폼 고유 정보를 추출한다. 중복 제거는 URL·제목·스니펫 기반 근접 중복 탐지 알고리즘으로 수행한다. 세 번째 단계가 가장 혁신적인데, 검색 의도와 각 결과 항목의 텍스트(제목, 스니펫, README 등)를 OpenAI text‑embedding‑3‑small/large 모델로 벡터화한다. 이후 코사인·유클리드·L1 거리, 절대 차이, 원소별 곱 등 다양한 피처를 조합해 8가지 조합(소스·임베딩 모델 별) 중 최적의 입력 형태를 탐색한다. 이 피처들을 GaussianNB, Logistic Regression, XGBoost, LinearSVC, Ridge 등 5가지 머신러닝 분류기에 학습시켜, 각 소스별 최적 모델·차원·피처 조합을 선정한다. 실험 결과, GitHub Issue와 Stack Overflow에서는 GaussianNB가, Google 검색에서는 Ridge가 가장 높은 F1 점수를 기록했으며, 대규모 LLM(gpt‑4o) 기반 베이스라인보다 비용·속도·성능 면에서 열등함을 확인했다.
사용성 평가에서는 5명의 실무자·연구자를 대상으로 수동 검색과 GLiSE 지원 검색을 비교했다. GLiSE 사용 시 ‘첫 번째 관련 문서 도달 시간’이 158 s에서 96 s(≈39 % 감소)로 단축됐으며, 10개의 관련 항목을 찾는 전체 스크리닝 시간은 20 분에서 2.5 분으로 급감했다. SUS 점수는 81점(표준편차 7.6)으로 ‘우수’ 수준이며, 유용성·재사용 의향 모두 7점 만점에 6점을 기록했다. 피드백에서는 인터페이스 복잡도 감소와 단계별 진행 상황 시각화가 추가되면 더욱 좋겠다는 의견이 제시되었다.
이러한 설계·평가 결과는 회색문헌 수집 파이프라인을 자동화하면서도 높은 재현성을 유지할 수 있음을 증명한다. 특히, LLM 기반 쿼리 생성과 임베딩‑ML 필터링을 결합한 접근법은 기존의 단순 키워드 검색이나 수동 스크립트에 비해 검색 효율성과 정확도를 크게 향상시킨다. 다만, 현재 지원 소스가 GitHub, Stack Overflow, Google에 국한돼 있어 향후 다른 개발자 포럼, 블로그, 사내 위키 등으로 확장할 필요가 있다. 또한, 임베딩 모델과 분류기 선택이 데이터셋 규모와 도메인 특성에 따라 달라질 수 있으므로, 사용자는 자체 라벨링 데이터를 통해 모델을 재학습하거나 파인튜닝하는 절차를 제공받을 수 있다면 더욱 유연한 활용이 가능할 것이다.
전반적으로 GLiSE는 회색문헌 기반 증거 수집을 자동화하고, 연구자와 실무자가 최신 실천 사례를 빠르게 탐색하도록 돕는 실용적인 도구이며, 오픈소스 형태로 공개돼 커뮤니티 기반 개선이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기