교육용 다이어그램 생성에 RST 기반 인컨텍스트 예시 적용 연구
초록
본 논문은 Rhetorical Structure Theory(RST)를 활용해 인컨텍스트 학습(ICL) 예시를 선별·제공함으로써 LLM이 생성하는 교육용 다이어그램의 사실적 환각을 감소시키고, 논리적 조직·연결·레이아웃 미학 점수를 향상시키는 방법을 제안한다. 150개의 다이어그램을 컴퓨터 과학 교육자 4명이 평가한 결과, RST‑기반 ICL이 제로샷에 비해 환각 비율을 약 20% 낮추고, 다이어그램 충실도를 높였지만 모델의 확률적 특성으로 품질 변동성이 존재한다는 한계를 밝혔다.
상세 분석
이 연구는 두 가지 RST‑guided 인컨텍스트 파이프라인(RST1, RST2)을 설계하고, 기존 제로샷(zero‑shot) 방식과 비교하였다. RST1은 원본 텍스트와 그에 대응하는 Graphviz 코드 쌍을 예시로 제공하고, RST2는 텍스트를 RST 분석한 결과(az)와 코드 쌍을 제공한다. 파이프라인은 (1) 텍스트 RST 분석, (2) 사전 구축된 예시 사전(Dx)에서 구조적 유사도 기반 선택, (3) 선택된 예시를 포함한 시스템 메시지 구성, (4) ICL을 통한 코드 생성, (5) 오류 발생 시 자동 수리, (6) 레이아웃 개선 지시, (7) 최종 수리 단계의 7단계 흐름으로 이루어진다.
평가 설계는 논리적 조직(C1), 연결성(C2), 레이아웃 미학(C3) 세 가지 차원을 5점 척도로 측정했으며, 환각은 사실성(H_fact)과 충실성(H_ae, H_log, H_c) 네 종류로 구분하였다. 인간 평가자는 두 명씩 배정돼 Krippendorff’s α와 Kendall’s W로 신뢰도를 검증했으며, 환각 판정은 전문가 전원이 토론 후 최종 결정하였다.
실험 결과, RST‑guided 방식은 제로샷 대비 C1 평균 0.42점, C2 평균 0.35점, C3 평균 0.48점 상승했으며, 사실적 환각 비율은 20%p 감소했다. 그러나 텍스트 복잡도가 높을수록(RST 분석 시 관계 수·깊이 증가) 환각 발생 확률이 유의하게 상승했으며, 다단계 파이프라인에서 초기 단계의 오류가 후속 단계에 전이되는 현상이 관찰되었다. 자동 평가 모델(E1~E3) 중 명시적 지시와 인컨텍스트 예시를 결합한 E2가 인간 평점과 가장 높은 상관관계(r≈0.71)를 보였지만, 여전히 환각 탐지 정확도는 68% 수준에 머물렀다.
이 논문은 RST를 다이어그램 생성에 적용한 최초 사례이며, 인컨텍스트 예시 선택이 LLM의 출력 일관성과 사실성을 크게 좌우한다는 점을 실증한다. 동시에 LLM의 확률적 특성, 복잡한 입력에 대한 취약성, 다단계 파이프라인의 오류 전이 문제를 지적함으로써 향후 연구 방향을 제시한다. 향후 작업에서는 (1) RST 분석 자동화 정확도 향상, (2) 동적 예시 선택을 위한 메타‑학습, (3) 환각 억제를 위한 후처리 검증 체계 구축이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기