AgriGPT Omni: 음성, 이미지, 텍스트를 하나로 통합한 다국어 농업 AI
초록
AgriGPT-Omni는 농업 분야 최초로 음성, 시각, 텍스트를 통합한 ‘옴니모달’ AI 프레임워크입니다. 6개 언어로 49만 개 이상의 합성 음성과 1,400개의 실제 음성 데이터를 구축하고, 3단계 학습 파이프라인을 통해 도메인 지식을 주입했습니다. 또한, 음성-이미지-텍스트 복합 과제를 평가하는 최초의 벤치마크 ‘AgriBench-Omni-2K’를 제안하여, 일반 목적 AI 모델보다 농업 특화 다국어·다중모드 추론에서 우수한 성능을 입증했습니다.
상세 분석
AgriGPT-Omni의 기술적 핵심은 크게 세 가지로 요약됩니다. 첫째, 확장 가능한 하이브리드 데이터 파이프라인입니다. 기존 농업 텍스트(Agri-342K)와 이미지-텍스트 데이터(AgriVL-150K)를 Qwen2.5-72B로 6개 언어(중국어, 사천 방언, 광둥어, 영어, 일본어, 한국어)로 번역한 후, CosyVoice2-0.5B TTS를 이용해 고품질 합성 음성(약 49만 2천 개)을 생성했습니다. 여기에 실제 자원봉사자 녹음 음성(약 1,400개)을 추가하여 실제 환경의 억양과 잡음에 대한 강건성을 확보했습니다. 이는 농업 분야 최대 규모의 다국어 음성 데이터셋입니다.
둘째, 체계적인 3단계 옴니모달 학습 전략입니다. 1단계 ‘텍스트 지식 주입’에서는 농업 코퍼스(22억 토큰)로 지속 사전학습을 진행하고, 텍스트 QA와 ‘음성-텍스트’ 정렬 튜닝을 통해 언어 모델의 도메인 이해와 음성 이해 기초를 마련합니다. 2단계 ‘점진적 멀티모달 정렬’에서는 비전/음성 인코더를 고정(frozen)한 상태에서 각 모달리티별 어댑터만 학습시켜 시각/청각 표현을 언어 공간에 안정적으로 정렬시킵니다. 이후 언어 백본을 풀고(unfrozen) 대규모 VQA 및 오디오-VQA 데이터로 통합 튜닝을 진행하며, GPT-4o가 생성한 고품질 샘플로 미세 조정하여 성능을 정제합니다. 3단계 ‘GRPO 기반 강화 학습’에서는 다중 선택과 필사(transcription) 작업에 대해 Group Relative Policy Optimization(GRPO)을 적용하여 모델의 출력 정확도와 형식 일관성을 최적화합니다.
셋째, 포괄적인 평가를 위한 AgriBench-Omni-2K 벤치마크입니다. 기존 농업 AI 평가가 텍스트-이미지에 치중된 점을 해결하기 위해, 음성 QA, 음성+텍스트 객관식, 음성+이미지 QA, 음성+이미지+텍스트 객관식 등 4가지 유형의 복합 과제를 6개 언어로 총 1,500개 샘플 구성했습니다. 여기에 실제 음성 샘플 586개를 별도 평가 세트로 구성하여 실전 성능을 검증합니다. 이 벤치마크는 표준화된 평가 프로토콜과 도구를 제공하여 향후 연구의 재현성과 공정한 비교를 보장합니다.
실험 결과, AgriGPT-Omni는 텍스트 생성(BLEU, ROUGE), 이미지-텍스트 생성, 그리고 모든 다중모드 작업에서 Qwen2.5-Omni, Gemini 등 일반 목적 옴니모달 모델을 크게 앞섰습니다. 특히 합성 음성과 실제 음성 간 성능 차이를 분석한 실험은 모델의 실용 가능성을 입증합니다. 이 연구는 저자원 지역을 포함한 포용적 농업 AI 발전을 위해 모델, 데이터, 벤치마크, 코드를 전면 공개한다는 점에서 실용적 가치가 매우 큽니다.
댓글 및 학술 토론
Loading comments...
의견 남기기