AIANO로 정보 검색 데이터셋 구축 효율 혁신
초록
AIANO는 인간 전문가와 대형 언어 모델(LLM)의 협업을 통해 정보 검색(IR)용 질문‑답변 데이터셋을 빠르고 정확하게 만들 수 있게 설계된 특화형 주석 도구이다. 15명의 참가자를 대상으로 기존 오픈소스 도구인 Label Studio와 비교한 실험에서 주석 속도가 거의 2배로 단축되고, 인지 부하와 좌절감이 크게 감소했으며, 최종 데이터셋의 검색 정밀도·재현율·F1 점수가 모두 향상되었다.
상세 분석
AIANO는 “블록”이라는 모듈형 구성 요소를 중심으로 설계되었으며, 각 블록은 입력·출력 스키마와 동작 모드를 자유롭게 정의할 수 있다. 세 가지 모드(Plain, AI Solo, Human‑AI Collaborative)는 인간이 전적으로 작성하는 경우부터 LLM이 자동으로 텍스트를 생성하고, 인간이 이를 검토·수정하는 경우까지 단계별 협업 수준을 제공한다. 특히 Human‑AI Collaborative 모드에서는 질문 블록, 하이라이트 블록, 메타데이터 등 다중 소스를 종합해 LLM이 후보 답변을 생성하고, annotator가 이를 수용·편집·거부함으로써 품질을 보장한다.
시스템은 프로젝트 생성·구성·주석의 3단계 워크플로우를 갖추고, JSON 기반 스키마 정의를 통해 도메인 특화 입력(예: 의료 기록, 법률 문서)에도 손쉽게 적용 가능하도록 설계되었다. UI는 좌측에 문서 탐색·검색, 중앙에 하이라이팅·주석 도구, 우측에 블록 패널을 배치해 작업 흐름을 시각적으로 연결한다. LLM 연동은 OpenAI API 표준을 따르며, 로컬 vLLM 배포도 지원해 비용 효율성을 높인다.
사용자 연구는 within‑subject 디자인으로, 15명의 다양한 배경(연구자, 개발자, 의료인 등) 참가자가 두 도구를 번갈아 사용하도록 하였다. 각 참가자는 4개의 질문(단일·다중 문서) 과제를 수행했으며, 작업 시간, NASA‑TLX 인지 부하, 8항목 사용성 설문, 그리고 정밀도·재현율·F1 점수를 측정했다. 통계 분석은 정규성 검정 후 t‑test와 Wilcoxon signed‑rank test를 적용했으며, p < 0.05를 유의 수준으로 설정했다.
결과는 두드러졌다. 평균 작업 시간은 Label Studio 10 분 대비 AIANO 6 분으로 40 % 감소했으며, NASA‑TLX 전체 점수는 22.5 → 34.17(낮을수록 좋음)으로 유의하게 낮았다. 특히 정신적·신체적 요구, 노력, 좌절감이 크게 감소했으며, 사용성 설문에서도 모든 항목에서 AIANO가 현저히 높은 평균 점수(4.25 vs 2.375)를 기록했다. 정량적 검색 성능도 개선돼 정밀도 0.889, 재현율 0.883, F1 0.860을 달성했으며, 라벨 스튜디오 대비 각각 2.5 %, 12.8 %, 9.3 % 상승했다.
이러한 성과는 AIANO가 제공하는 통합 검색, 블록 기반 자동 생성, 그리고 인간 검증 루프가 주석 과정의 병목을 효과적으로 해소했음을 시사한다. 특히 복수 문서에서 근거를 찾아야 하는 IR 작업에서 LLM이 제시한 후보 답변을 빠르게 검증·수정함으로써 인간의 인지 부하를 크게 낮추고, 데이터 품질을 유지하면서도 생산성을 높였다.
한계점으로는 실험이 독일어 일반 지식 문서에 국한됐으며, LLM로서 Meta Llama 70B를 사용했기 때문에 다른 모델이나 언어에 대한 일반화는 추가 검증이 필요하다. 또한 AIANO의 AI 제안이 완전 자동이 아닌 ‘보조’ 수준이므로, LLM 성능 저하 시 인간 작업량이 다시 증가할 가능성도 존재한다. 향후 연구에서는 다국어·다도메인 적용, 자동 품질 평가 메커니즘, 그리고 비용‑효율 최적화를 위한 라이트웨이트 LLM 연동 등을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기