LLM이 자메이카 쿠스쿠스를 만들 수 있을까 문화적 새로움과 적응성 평가
초록
본 논문은 대형 언어 모델(LLM)이 문화적 거리와 연계된 요리 레시피를 얼마나 잘 적응시키는지를 조사한다. GlobalFusion 데이터셋을 확장해 LLM이 생성한 레시피를 인간이 만든 변형 레시피와 비교하고, Jensen‑Shannon Divergence 기반의 문화적 새로움·독창성·차이·놀라움 지표를 적용한다. 실험 결과, LLM은 문화적 거리와의 상관관계가 약하고, 내부 표현에 문화 정보가 희미하게 보존될 뿐 아니라, 창의성·전통 개념을 오해해 과도한 새로움을 추구한다는 한계를 드러낸다.
상세 분석
이 연구는 문화적 창의성을 정량화하기 위해 요리 레시피라는 구체적 도메인을 선택한 점이 돋보인다. GlobalFusion 데이터셋은 500개의 요리와 130개국에 걸친 인간 변형 레시피를 제공하며, 각 변형은 문화적 거리(인게르하트‑웰젤 지도, 언어·종교·지리 거리)와 연결된다. 논문은 이 구조를 그대로 활용해 LLMFusion이라는 확장 데이터를 만든다. 구체적으로, 원본 요리(예: 모로코 쿠스쿠스)에 대해 각 목표 국가(예: 자메이카)를 명시하고, “novel, authentic, traditional” 등 10개의 키워드를 포함한 프롬프트를 8개의 서로 다른 LLM에 제시한다. 프롬프트 설계는 모델의 민감도를 최소화하기 위해 키워드 정의와 문화 배경 설명을 추가한 점이 실험 재현성을 높인다.
텍스트적 차이를 측정하는 핵심 지표는 Jensen‑Shannon Divergence(JSD)를 변형해 만든 다섯 가지 메트릭이다. ‘Cultural Newness’는 단어 빈도 변화 비율을, ‘Cultural Uniqueness’는 목표 문화의 전형적 레시피와의 거리, ‘Cultural Difference’는 전체 지식베이스와의 평균 거리, ‘Cultural Surprise’는 기대 조합 대비 실제 조합의 차이를 각각 포착한다. 특히 ‘Surprise’는 ‘New Surprise’와 ‘Divergent Surprise’로 세분화돼, 새로운 조합의 등장 여부와 기존 PMI(점별 상호정보)와의 차이를 동시에 평가한다. 이러한 다차원적 측정은 단순한 표면 다양성(예: 토큰 수)보다 문화적 적합성을 정교하게 드러낸다.
실험에서는 Meta‑Llama‑3‑70B‑Instruct, Gemma‑2‑27B‑IT, Falcon‑40B, Orion‑14B‑Chat 등 8개 모델을 zero‑shot 설정으로 평가했다. 결과는 인간 변형 레시피가 문화적 거리와 높은 양의 상관관계(ρ≈0.6~0.7)를 보인 반면, LLM은 거의 상관이 없으며(ρ≈0.1 이하) 일부 모델은 오히려 문화적 거리가 가까울수록 더 큰 ‘새로움’을 생성했다. 내부 표현 분석(대표 토큰 임베딩의 클러스터링)에서는 동일 문화에 대한 토큰 분포가 명확히 구분되지 않아, 모델이 문화 정보를 충분히 학습하지 못했음을 시사한다. 또한, 모델이 ‘창의성’과 ‘전통’을 혼동해, 전통적인 재료를 무시하고 완전히 새로운 재료만을 나열하는 경향이 관찰되었다. 이는 프롬프트에 포함된 “novel”, “creative” 같은 키워드가 모델에게 ‘새로움’ 자체를 과도하게 강조하도록 만든 설계상의 함정으로 해석될 수 있다.
결론적으로, 현재 LLM은 문화적 거리와 연계된 의미 있는 레시피 적응을 수행하지 못한다. 문화적 지식이 모델 내부에 약하게 존재하고, 창의성 지시가 문화적 적합성보다 표면적 새로움을 우선시하도록 오해되는 구조적 한계가 있다. 향후 연구는 (1) 문화별 어휘·관념을 강화한 사전학습, (2) 문화적 거리 정보를 명시적으로 입력에 포함하는 프롬프트 설계, (3) 인간‑모델 협업을 통한 문화적 검증 루프 구축 등을 통해 이러한 격차를 메우는 방향을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기