위기 상황 합성 트윗 데이터셋 생성을 위한 에이전트 워크플로우 설계 및 평가
초록
본 논문은 트위터 데이터 접근 제한과 기존 위기 트윗 데이터의 한계를 극복하기 위해, 목표 라벨(위치·피해 수준)을 조건으로 LLM을 활용해 합성 트윗을 생성하고, 규정 기반 평가와 피드백 증강을 통해 반복적으로 품질을 개선하는 에이전트 기반 워크플로우를 제안한다. 지진 피해 평가 사례를 통해 라벨 일관성 및 텍스트 다양성을 확보했으며, 생성된 데이터셋이 지리 위치 추정 및 피해 수준 예측 AI 모델 평가에 유용함을 입증한다.
상세 분석
이 연구는 위기 인포매틱스 분야에서 실시간 상황 인식을 위한 소셜 미디어 데이터 확보가 점점 어려워지는 현 상황을 정확히 짚어낸다. 특히 트위터의 데이터 정책 변화와 기존 데이터셋의 지역·시점 제한, 라벨링 비용 문제를 지적하며, 이러한 제약이 AI 모델 개발·평가에 미치는 부정적 영향을 논리적으로 설명한다.
제안된 에이전트 워크플로우는 세 가지 역할을 가진 에이전트(Generator, Evaluator, Augmenter)로 구성된다. Generator는 LLM을 프롬프트에 목표 라벨 벡터(y_loc, y_dmg)를 삽입해 합성 트윗을 생성한다. 여기서 라벨 벡터는 실제 과거 지진 트윗에서 자동 추출한 NER 및 대형 언어 모델 기반 손상 수준 추정 결과를 활용한다. Evaluator는 위치 정확도, 손상 수준 정확도, 텍스트 다양성(자체 BLEU 기준)이라는 세 가지 휴리스틱 검증을 수행한다. 특히 텍스트 다양성 검사는 기존 합성 트윗과의 중복을 방지해 데이터셋의 풍부성을 유지한다는 점에서 의미가 크다. Augmenter는 평가 결과를 인간이 읽을 수 있는 피드백 텍스트로 변환해 Generator의 다음 프롬프트에 추가함으로써, 일종의 인-컨텍스트 학습을 구현한다. 이 순환 구조는 라벨 일관성을 점진적으로 높이며, 실패한 사례에 대한 구체적 교정 정보를 제공한다는 점에서 기존 단일 프롬프트 생성 방식보다 효율적이다.
실험은 6개의 서로 다른 지진 사건(캘리포니아, 칠레, 네팔, 후쿠시마, 아이티 등)을 대상으로 진행되었다. 각 사건별 실제 트윗을 수집·전처리하고, 자동 라벨링 파이프라인을 통해 y_loc과 y_dmg를 추출한 뒤, 동일한 라벨 분포를 목표로 합성 데이터를 생성했다. 결과적으로, 95% 이상이 위치·피해 라벨을 정확히 반영했으며, Self‑BLEU 점수가 설정한 임계값 이하인 경우에만 데이터셋에 포함되었다. 또한, 생성된 합성 데이터셋을 이용해 기존 지리 위치 추정 모델과 피해 수준 분류 모델을 평가했을 때, 실제 데이터와 유사한 성능 지표를 보이며, 모델의 일반화 능력 검증에 충분히 활용 가능함을 확인했다.
한계점으로는 휴리스틱 기반 평가가 인간 전문가의 정성적 검증을 완전히 대체하지 못한다는 점, LLM 자체의 편향과 오류가 피드백 루프에 누적될 위험, 그리고 현재는 지진 피해라는 좁은 도메인에만 적용했음에도 불구하고 다른 재난 유형(홍수, 화재 등)으로 확장할 때 라벨 정의와 평가 기준을 재설계해야 한다는 점을 언급한다. 향후 연구에서는 다중 에이전트 협업을 통한 복합 라벨(예: 인명 피해, 인프라 파손 등) 생성, 그리고 인간‑AI 하이브리드 검증 체계 도입을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기