중국 도자기 감정 인공지능 CiQi Agent

본 연구는 고대 중국 청자라는 복합적인 문화유산을 인공지능으로 정밀 감정하고 설명하는 시스템을 개발하였다. 연구 동기는 전통적인 청자 감정이 깊은 역사·예술·재료 지식을 요구해 일반인과 비전문가가 접근하기 어려운 점에 있다. 최근 대형 언어 모델과 멀티모달 모델의 급격한 발전을 배경으로, 시각·언어·추론을 통합한 멀티모달 대형 언어 모델(MLLM)이 문화유산 분야에 적용될 가능성을 탐색하였다. 첫 단계로, 저자들은 29 596개의 청자 표본을 수집하고, 각 표본에 최소 하나의 고해상도 이미지와 표준화된 명칭을 부여하였다. 명칭은 ‘왕조·연대·제련소·유약 색·문양·형태’의 6가지 핵심 속성을 모두 포함하도록 설계되었으며, 전문가 팀이 직접 검증·보완하였다. 이 표본들을 기반으로 51 553장의 이미지와 557 940개의 시각 질문‑답변(VQA) 쌍을 생성했다. VQA 쌍은 LLM을 활용해 자동 생성한 뒤, 인간 전문가가 품질을 검수하고 라이트 웨이트 문장 변형을 통해 다양성을 확보하였다. 이렇게 구축된 데이터셋을 ‘CiQi‑VQA’라 명명하였다. 다음으로, 평가용 벤치마크 ‘CiQi‑Bench’를 775개의 표본으로 구성하였다. 벤치마크는 두 가지 평가 프로토콜을 제공한다. 첫 번째는 다중 선택형 객관식으로, 각 속성(왕조, 연대, 제련소, 유약 색, 문양, 형태)에 대한 정답 라벨과 모델의 선택을 비교한다. 두 번째는 자유형 서술형으로, 모델이 생성한 감정 설명을 LLM 기반 속성별 유사도 점수로 평가한다. 이 두 프로토콜은 정확도와 설명 충실도를 동시에 측정하도록 설계되었다. CiQi‑Agent는 Qwen2.5‑VL‑7B‑Instruct를 기반으로 하며, 두 종류의 외부 도구와 연동한다. 첫 번째는 이미지 줌‑인 도구로, 사용자가 지정한 영역을 고해상도로 확대해 세밀한 질감·균열·색상 변화를 분석한다. 두 번째는 멀티모달 검색 도구로, 이미지 기반 검색과 텍스트 기반 검색을 동시에 수행해 CiQi‑VQA 데이터베이스에서 유사 표본과 관련 문헌을 회수한다. 모델은 질문에 대한 초기 답변을 생성한 뒤, 필요 시 도구를 호출해 추가 증거를 확보하고, 최종 답변을 재작성한다. 이러한 ‘툴‑증강 추론’은 다단계 사고와 외부 지식 통합을 가능하게 하여, 단순 라벨 예측을 넘어 전문가 수준의 근거 기반 설명을 제공한다. 학습 과정은 두 단계로 나뉜다. Phase I에서는 도구 호출 보상을 크게 설정한 GRPO 기반 강화학습을 통해 모델이 효율적으로 도구를 활용하도록 초기 정책을 학습한다. 여기서 생성된 합성 트래젝터리를 SFT 데이터에 병합해 지도학습을 수행한다. Phase II에서는 정확도 기반 보상을 추가해 도구 활용 효율성과 감정 정확도를 동시에 최적화한다. 이러한 순환 학습은 도구 호출 능력과 도메인 지식 적용 능력을 상호 보강한다. 실험 결과, 7 B 파라미터 모델인 CiQi‑Agent는 모든 6가지 속성에서 기존 공개·폐쇄형 멀티모달 모델을 앞섰으며, 특히 왕조·제련소 판별에서 15 % 이상 높은 정확도를 기록했다. 툴‑증강 추론을 적용하지 않은 베이스라인 대비 평균 8 % 이상의 성능 향상이 관찰되었으며, GPT‑5 대비 평균 12.2 % 높은 정확도를 달성했다. 또한 모델은 다중 이미지 입력과 단계적 도구 호출을 통해 복합적인 시각·텍스트 증거를 통합, 인간 전문가와 유사한 설명을 생성한다. 논문은 데이터 편향, 전문가 라벨링 비용, 도구 호출 비용 등 한계를 인정한다. 향후 연구 방향으로는 더 다양한 유물 종류와 다국어 지원, 인간‑AI 협업 인터페이스 구축, 실시간 현장 적용을 위한 경량화 모델 개발 등을 제시한다. 전반적으로 본 연구는 문화유산 디지털화와 AI 기반 감정 기술의 융합에 있어 데이터, 모델, 도구, 평가 체계가 유기적으로 결합된 최초의 사례로 평가될 수 있다.

중국 도자기 감정 인공지능 CiQi Agent

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기