비전언어모델을 활용한 한자 손글씨 미학 평가
본 논문은 비전‑언어 모델(VLM)을 이용해 한자 손글씨의 미학적 품질을 자동으로 평가하고, 단순 등급 부여와 상세 피드백 두 단계의 피드백을 생성하는 방법을 제안한다. LoRA 기반 파인튜닝과 인‑컨텍스트 학습을 각각 적용해 모델을 적은 데이터로 효율적으로 도메인 지식에 맞추었으며, CCL 2025 대회에서 두 과제 모두 최신 성능을 기록하였다.
저자: Chen Zheng, Yuxuan Lai, Haoyang Lu
본 논문은 한자 손글씨의 미학적 품질을 자동으로 평가하고, 학습자에게 실질적인 개선 지침을 제공하기 위해 비전‑언어 모델(VLM)을 활용한 새로운 시스템을 설계·실험하였다. 기존 연구들은 주로 구조적 특징이나 인식 신뢰도를 기반으로 점수만을 산출했으며, 피드백의 구체성이 부족했다. 이를 보완하고자 저자들은 두 가지 피드백 생성 과제, 즉 ‘등급 부여(Task 1)’와 ‘코멘트 생성(Task 2)’를 정의하고, 각각에 적합한 모델링 전략을 모색하였다.
**데이터 및 과제 정의**
CCL 2025 대회에서 제공된 데이터셋을 사용했으며, Task 1은 1500개의 학습 이미지와 300개의 테스트 이미지로 구성된 3‑class(Excellent, Medium, Unqualified) 분류 문제이다. Task 2는 600개의 학습 이미지와 100개의 테스트 이미지로 구성되며, 각 이미지에 대해 구조와 획 형태 두 축을 중심으로 한 서술형 피드백을 생성한다. 평가 지표는 Task 1에서 정밀도·재현율·F1, Task 2에서 ROUGE‑1/2/L 및 가중 평균 점수(FinalScore)이다.
**모델 및 학습 전략**
1. **LoRA 기반 파인튜닝**
- 오픈소스 VLM인 Qwen2.5‑VL‑72B‑Instruct와 QVQ‑72B‑Preview를 선택했다.
- 파인튜닝은 3 epoch, 학습률 1e‑4, LLaMA‑Factory 도구를 사용해 진행하였다.
- 입력‑출력 포맷은 JSON‑like 대화 형태로 구성했으며, ‘user’ 역할에 이미지, ‘assistant’ 역할에 등급 혹은 피드백을 배치했다.
- Task 1에서는 순수 학습 데이터만 사용한 모델이 가장 높은 F1 0.76을 기록했으며, CHAED 데이터(1000 이미지, 미학 점수 기반)와 결합한 모델은 등급 기준과의 불일치로 성능이 0.61으로 떨어졌다.
- Task 2에서는 두 단계 접근법을 시도했는데, 첫 번째 단계는 이미지→피드백 직접 생성, 두 번째 단계는 이미지와 사전 예측된 등급을 함께 입력해 피드백을 보강하였다. 두 모델 모두 QwenVL 기반보다 QVQ 기반이 약간 우수했다.
2. **인‑컨텍스트 학습**
- 폐쇄형 대형 VLM(qwen‑vl‑max‑2025‑01‑25)을 사용했으며, 테스트 시점에 K개의 예시를 프롬프트에 삽입한다.
- 예시 선택 방법은 (a) 이미지 임베딩 코사인 유사도 기반 정렬, (b) 무작위 선택 두 가지를 비교했다.
- Task 1에서는 유사도 기반 정렬이 0.69의 F1을 달성해 파인튜닝보다 낮지만, 인‑컨텍스트 방식의 가능성을 보여주었다.
- Task 2에서는 무작위 선택이 ROUGE‑L 0.56, FinalScore 0.52로 가장 높은 성능을 기록했으며, 이는 피드백 생성에 있어 다양하고 풍부한 언어 표현이 중요함을 의미한다.
**결과 및 토론**
- 전체 리더보드에서 제안 시스템은 3위에 올랐으며, 특히 Task 2에서 인‑컨텍스트 학습이 가장 높은 점수를 얻었다.
- 파인튜닝은 계산 효율성이 뛰어나며, 사전 학습된 VLM에 도메인 특화 지식을 저비용으로 주입할 수 있다. 반면 인‑컨텍스트 학습은 토큰 사용량과 연산 비용이 크게 증가하지만, 대형 폐쇄형 모델의 강력한 언어 생성 능력을 그대로 활용할 수 있다.
- 데이터 확장 시 기존 미학 점수와 등급 기준이 일치하지 않을 경우 성능 저하가 발생한다는 점을 발견했다. 이는 향후 데이터 라벨링 단계에서 등급 정의와 점수 기준을 일관되게 설계해야 함을 시사한다.
**미래 연구 방향**
- 강화학습(RL) 기반 보상 설계와 인간 피드백을 결합해 VLM이 미학 원칙을 더 정교하게 학습하도록 할 계획이다.
- 비교 순위 학습 및 세분화된 미학 분류(예: 획 굵기, 압력 변화, 균형 등)를 도입해 평가 정확도를 높이고, 보다 구체적인 교정 지침을 제공하고자 한다.
- 데이터 희소성과 주관적 평가 문제를 해결하기 위해 멀티모달 데이터 증강, 크라우드 라벨링, 그리고 교사‑학생 인터랙션을 통한 라벨 검증 파이프라인을 구축할 예정이다.
**결론**
본 연구는 비전‑언어 모델을 활용해 한자 손글씨의 미학 평가와 다단계 피드백 생성을 실현함으로써, 기존 점수‑중심 자동 채점 시스템의 한계를 극복하였다. LoRA 파인튜닝과 인‑컨텍스트 학습 두 가지 접근법을 비교·분석함으로써, 각각의 장단점과 적용 시나리오를 명확히 제시하였다. 향후 강화학습 및 세밀한 미학 분류 연구를 통해 교육 현장에서 실제로 활용 가능한 고품질 피드백 시스템으로 발전시킬 가능성을 보여준다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기