상상력으로 웃음을 끌어내다: GTVH 기반 다역할 LLM 협업 프레임워크 HOMER

상상력으로 웃음을 끌어내다: GTVH 기반 다역할 LLM 협업 프레임워크 HOMER
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 이미지 기반 유머 캡션 생성을 위해 일반 언어 모델(LLM)에 유머 이론인 GTVH를 접목한 다역할 협업 프레임워크인 HOMER를 제안한다. 충돌 스크립트 추출기, 계층적 상상기, 캡션 생성기의 세 역할을 순차·협업하게 하여, 이미지에서 스크립트 대립을 식별하고, 대상에 대한 연관 트리를 구축·확장한 뒤, 이를 기반으로 풍부하고 창의적인 유머 캡션을 생성한다. 뉴요커 만화 데이터셋 두 개에서 기존 최첨단 모델 대비 평균 7% 이상의 성능 향상을 입증하였다.

상세 분석

HOMER는 기존 LLM 기반 유머 생성이 “표면적 언어”에 머무는 한계를 극복하기 위해, 유머의 근본 메커니즘을 설명하는 General Theory of Verbal Humor(GTVH)를 구조적 가이드라인으로 채택한다. GTVH는 스크립트 대립(script opposition), 상황(situation), 목표(target), 서사 전략(narrative strategy), 언어(language) 등 다섯 가지 지식 자원을 정의한다. 논문은 특히 스크립트 대립을 핵심으로 삼아, 이미지 속에서 기대와 위배를 동시에 드러내는 요소를 자동으로 추출한다.

첫 번째 역할인 충돌 스크립트 추출기는 이미지 인식 결과와 사전 정의된 프롬프트를 이용해 상황 설명(D)과 스크립트 대립 집합(C)을 도출한다. 여기서 “오버사이즈 커피컵 vs. 일반 커피컵”과 같은 구체적 대립을 식별함으로써, 이후 단계가 논리적·창의적 기반 위에서 진행될 수 있게 한다.

두 번째 역할인 계층적 상상기는 C와 D에서 도출된 핵심 엔티티를 목표(t_i)로 선정하고, 두 차원의 상상을 수행한다. (1) 깊이 상상은 LLM의 자유 연상 함수를 f_chain을 재귀적으로 호출해 엔티티 간 연쇄적 관계(예: coffee → milk → cow)를 생성한다. 평균 연쇄 길이는 4로 설정돼, 과도한 발산을 방지한다. (2) 광범위 상상은 사전에 구축한 12개의 공개 조크 데이터셋을 통합한 Joke DB에서 목표 엔티티와 상황·스크립트 정보를 쿼리 임베딩(z_q)으로 활용해 Top‑K 유사 조크를 검색한다. 검색된 조크는 토큰화·레마타이징 되어 리프 노드 후보(ε)로 삽입된다.

이후 HOMER‑pruning 단계에서 humor‑relevance score H(e, ε)를 적용한다. H는 (i) 의미 유사도와 개념적 반대성을 결합한 relevance‑opposition 점수, (ii) 조크 내 토큰 빈도 기반 humor‑frequency, (iii) 품사 다양성 기반 humor‑diversity를 합산해 산출한다. WordNet 기반 Wu‑Palmer 유사도와 Jaccard 차이를 활용해 스크립트 대립의 ‘놀람’ 요소를 정량화한다. 상위 δ% 토큰만을 남겨 imagination tree를 정제함으로써, 무의미하거나 부적절한 연상을 억제한다.

세 번째 역할인 캡션 생성기는 상황 설명 D, 스크립트 대립 C, 정제된 imagination tree T_im, 그리고 서사 전략 Ω를 하나의 프롬프트 Φ에 통합한다. LLM은 이 복합 정보를 바탕으로 다중 후보 캡션을 생성하고, 다양성·유머 점수를 기준으로 최종 출력을 선택한다.

실험에서는 뉴요커 만화 데이터셋인 “NYC Cartoon”과 “NYC Cartoon‑2”를 사용해 자동 메트릭(ROUGE, BLEU, Humor‑Score)과 인간 평가(재미, 창의성, 적합성)를 수행했다. HOMER는 기존 GPT‑4o, CLoT 등과 비교해 평균 7% 이상의 점수 상승을 기록했으며, 특히 “스크립트 대립 인식”과 “상상 트리 활용”이 유머 품질에 크게 기여함을 ablation 연구를 통해 확인했다.

이 논문의 주요 기여는 (1) GTVH를 실용적인 멀티모달 LLM 파이프라인에 체계적으로 적용한 점, (2) 스크립트 대립 기반의 명시적 지식 추출과 목표‑중심 상상 트리 구축이라는 새로운 프레임워크, (3) 조크 데이터베이스와 의미‑반대성 점수를 결합한 정교한 프루닝 메커니즘이다. 한계점으로는 조크 DB의 도메인 편향과 LLM의 연산 비용이 있으며, 향후에는 더 풍부한 문화적 맥락과 실시간 사용자 피드백을 반영한 적응형 프레임워크가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기