대규모 LLM 기반 코퍼스 자동 주석 파이프라인: 영문 consider 구문 변이와 변화
초록
본 논문은 대규모 텍스트 코퍼스의 문법 주석을 대형 언어 모델(LLM)로 자동화하는 네 단계 파이프라인을 제안한다. 143,933개의 consider 구문을 COHA에서 추출해 GPT‑5 API로 60시간 이내에 처리했으며, 평가·비평적 사용 구분과 보어 유형(Ø, to‑be, as) 분류에서 98 % 이상의 정확도를 달성했다. 베이지안 다항 GAM 분석을 통해 장르별 변이 경향을 새롭게 규명하고, 비용·윤리적 고려사항을 포함한 실용적 가이드라인을 제시한다.
상세 분석
이 연구는 전통적인 수동 주석의 비효율성을 극복하고자, (1) 프롬프트 엔지니어링 단계에서 구문·의미 기준, 경계 사례, 출력 형식을 상세히 정의하고, (2) 사전 평가(pre‑hoc evaluation) 단계에서 무작위 샘플 2개 이상에 대해 프롬프트 유효성을 검증한다. 이후 자동 배치 처리(automated batch processing) 단계에서는 OpenAI GPT‑5 API를 활용해 143 933개의 consider 라인을 10 초 이하의 응답 시간으로 일괄 분류한다. 마지막 사후 검증(post‑hoc validation) 단계에서는 층화 무작위 샘플링을 통해 각 시대·장르별 정확도를 재확인하고, 오류 유형을 체계적으로 분석한다.
주요 기술적 성과는 두 가지 분류 작업에서 98 % 이상의 정확도를 유지하면서도, 전체 비용을 약 $104(USD)로 제한했다는 점이다. 이는 기존의 지도학습 기반 파이프라인이 요구하던 대규모 라벨링 비용과 비교해 획기적인 절감 효과를 보여준다. 또한, 베이지안 다항 일반화 가법 모델(GAM)을 44 527개의 평가적 consider 사례에 적용해, 장르별(문학, 신문, 학술, 대화, 광고) 시간 흐름에 따른 보어 유형 비율이 서로 다른 궤적을 보임을 밝혀냈다. 예를 들어, 공식적인 장르에서는 to‑be 보어가 점진적으로 감소하고 Ø 보어가 증가하는 반면, 비공식 장르에서는 as 보어가 일시적으로 상승하는 패턴이 관찰되었다.
이러한 결과는 (i) LLM이 복합적인 의미·구문 판단을 높은 신뢰도로 수행할 수 있음을, (ii) 대규모 코퍼스에서 소수 현상(예: 평가적 consider)을 효율적으로 추출·분류할 수 있음을, (iii) 자동 주석이 새로운 이론적 가설(예: 레지스터 형식성 ↔ 형태 축소·강화 압력) 도출에 직접 기여할 수 있음을 입증한다. 한편, 모델 버전·API 비용 변동, 데이터 라이선스 제한, 프롬프트 편향 등 윤리·실용적 한계도 명시적으로 논의한다.
댓글 및 학술 토론
Loading comments...
의견 남기기