노래시 생성의 새로운 지평, PoeTone 프레임워크
초록
본 논문은 고전 중국 시조인 송시(宋詞)의 엄격한 구조·음운·운율 제약을 만족하도록 대형 언어모델(LLM)의 제약 생성 능력을 체계적으로 평가한다. 20개의 대표적인 체(詞牌) 메타데이터와 120편의 정제된 송시 코퍼스를 구축하고, (i) 형식 적합도 점수, (ii) LLM 기반 자동 품질 평가, (iii) 인간 평가, (iv) 분류 기반 프로빙 네 가지 축을 결합한 평가 프레임워크를 제안한다. 18개 모델(GPT‑4o, Gemini 2.5 Pro 등)과 5가지 프롬프트 전략(Zero‑shot, One‑shot, Completion, Instruction, CoT)을 시험한 결과, 대부분의 모델이 형식 적합도에서 낮은 점수를 보였으며, 제안된 Generate‑Critic 구조와 Best‑of‑N 선택을 활용한 SFT가 최대 5.88%의 개선을 달성한다는 것을 확인한다.
상세 분석
이 연구는 전통 시가의 형식적 제약을 정량화하는 ‘Formal Conformity Score’를 핵심 지표로 삼아, 구조·음조·운율 세 축을 가중합(wS=0.4, wT=0.3, wR=0.3)으로 평가한다. 구조 점수는 각 행의 문자 수와 행 수를 템플릿과 비교해 정규화하고, 음조 점수는 현대 표준 중국어 발음 사전을 이용해 ‘평(平)’·‘격(仄)’ 위치를 검증한다. 운율 점수는 지정된 운율 위치의 마지막 글자를 고전 운율 사전(Cilin Zhengyun)과 매칭해 가장 큰 운율군의 비율을 산출한다. 이러한 규칙 기반 스코어링은 자동화된 파이프라인으로 구현돼 대규모 생성물에 일관된 평가를 가능하게 한다.
자동 품질 평가는 GPT‑4o와 ERNIE 4.5 Turbo 두 모델을 ‘판사’로 활용해 유창성, 일관성, 시적 품질을 1‑5점 척도로 매긴다. 인간 평가는 ‘시적 튜링 테스트’와 세부 품질 설문을 결합해, 모델 출력이 인간 작품과 구별되는 정도와 주제 충실도·예술적 가치·전체 품질을 정량화한다. 또한, SVM 기반 문자‑레벨 임베딩과 Naïve Bayes 기반 TF‑IDF를 이용한 세 가지 프로빙 작업(체 식별, 주제 분류, 출처 구분)을 수행해 LLM이 내부에 시적 스타일과 주제 정보를 암묵적으로 학습했는지를 탐색한다.
벤치마크 결과, 최신 상용 모델조차도 ‘Instruction’이나 ‘CoT’ 프롬프트에서만 평균 55% 수준의 형식 적합도를 기록했으며, 특히 음조·운율 일치율이 낮아 전통 시의 미학을 충분히 재현하지 못함을 드러냈다. 오픈소스 모델 중 Qwen‑1.8B와 DeepSeek‑Chat 7B가 상대적으로 높은 점수를 보였지만, 여전히 60% 이하에 머물렀다. 이는 기존 LLM이 ‘문맥 흐름’과 ‘언어 이해’에는 강하지만, 정형화된 음운·운율 규칙을 내재화하는 데 한계가 있음을 시사한다.
Generate‑Critic 아키텍처는 위의 규칙 기반 스코어를 ‘비평가’로 삼아, Best‑of‑N( N=5 ) 샘플 중 가장 높은 점수를 받은 출력을 선택한다. 선택된 샘플을 라벨로 사용해 LoRA 기반 SFT를 수행한 결과, LLaMA‑7B‑Chat, Qwen‑1.8B‑Chat, DeepSeek‑Chat 7B‑Chat 세 모델이 각각 구조·음조·운율 적합도에서 평균 3.2, 3.5, 3.8%p 상승했으며, 전체 합산 점수는 최대 5.88%p 개선되었다. 이는 자동 비평 루프가 제약 생성에 실질적인 피드백을 제공함을 입증한다.
핵심 인사이트는 다음과 같다. 첫째, 형식 제약을 정량화하는 메타데이터와 스코어링 체계가 없으면 LLM의 시적 품질을 객관적으로 비교하기 어렵다. 둘째, 프롬프트 설계가 모델의 규칙 인식에 큰 영향을 미치며, CoT 방식이 가장 높은 형식 적합도를 유도한다. 셋째, 자동 비평‑선택‑미세조정 파이프라인이 비교적 작은 모델에도 의미 있는 성능 향상을 가져올 수 있다. 마지막으로, 현재 LLM은 ‘시적 감성’보다는 ‘문법·문맥’에 최적화돼 있어, 전통 시와 같은 고도로 구조화된 문화유산을 재현하려면 별도의 규칙 기반 보조 메커니즘이 필수적이다.
댓글 및 학술 토론
Loading comments...
의견 남기기