- Title: Cultural Encoding in Large Language Models The Existence Gap in AI-Mediated Brand Discovery
이 논문은 대형 언어 모델(Large Language Models, LLMs)의 훈련 데이터 지리에 따른 브랜드 가시성 차이를 분석한다. 특히 "문화 인코딩" 현상과 이를 통해 발생하는 존재 간극(Existence Gap)을 검증하고, 이 문제를 해결하기 위한 '데이터 무지개(Data Moat)' 프레임워크를 제안한다.
1. **키 컨트리뷰션 1: 문화 인코딩**
- **간단 설명:** 대형 언어 모델은 훈련 데이터에 따라 특정 지역이나 문화에 더 친숙하게 학습된다.
- **메타포:** 이는 마치 우리가 읽은 책에 따라 특정 지식을 더 많이 갖게 되는 것과 같다.
**키워드:** 생성 엔진 최적화, 문화 인코딩, 대형 언어 모델, 알고리즘 전면성, 데이터 무지개, 브랜드 가시성, AI 편향
서론
알고리즘 가시성 도전 과제
“내 언어의 한계는 내 세계의 한계이다.”
— Ludwig Wittgenstein, Tractatus Logico-Philosophicus (1922)
Zhizibianjie라는 협업 플랫폼을 고려해 보자. 이 플랫폼은 메시징, 비디오 회의, 파일 공유 기능을 갖추고 있으며, 기능이 포괄적이고 가격 경쟁력이 있지만 서양 시장에서 눈에 띄는 장벽을 마주하고 있다. 사용자가 GPT-4o나 Claude와 같은 국제 AI 시스템에게 협업 도구를 추천해달라고 요청할 때, Zhizibianjie는 거의 언급되지 않는다. 그러나 이러한 동일한 AI 시스템들이 중국의 맥락에서 작동할 때는 국내 대안들을 쉽게 추천한다. 이 불균형은 “문화 인코딩"이라는 새로운 현상을 나타낸다: 훈련 데이터의 언어적 및 문화적인 구성에 기반한 AI 추천의 체계적인 차이.
AI가 정보 탐색의 주요 인터페이스로 자리잡으면서, 훈련 데이터에 인코딩되지 않은 브랜드들은 “존재 간극"을 겪게 된다. 제품의 질과 상관없이 AI 응답에서 존재하지 않는다는 의미이다. 이 논문은 LLM 훈련 데이터 지리가 시장에 무형의 장벽을 만든다는 것을 경험적으로 보여주며, 이를 통계적 분석을 통해 검증하고 “데이터 무지개” 프레임워크를 도입하여 “알고리즘 전면성"을 달성하는 방법을 제시한다.
AI 중재 탐색의 부상
소비자의 정보 탐색 풍경은 근본적으로 변화하고 있다. 기존 검색 엔진은 웹 페이지 목록을 반환하지만, 대화형 AI 시스템이 이러한 검색 엔진을 보완하거나 때로는 대체하며 정보를 합성하여 직접 답변을 제공한다. ChatGPT는 출시 후 2개월 만에 1억 명의 사용자를 달성했으며, Google의 AI 오버뷰는 수십억 건의 검색에서 나타난다. Microsoft의 Bing Chat, Anthropic의 Claude와 여러 다른 AI 어시스턴트가 전 세계 소비자들에게 주요 정보 원천이 되고 있다.
이 “검색"에서 “답변"으로의 변화는 브랜드 가시성 동태를 근본적으로 바꾼다. 기존 검색 엔진 최적화(SEO)에서는 브랜드가 검색 엔진 결과 페이지(SERPs)의 순위 위치를 위해 경쟁한다. 사용자는 여러 옵션을 볼 수 있고 선택 결정을 내릴 수 있다. 반면 **생성 엔진 최적화(GEO)**는 브랜드가 AI 생성 응답에서 언급되는 것을 위한 경쟁이다. AI 시스템이 세 가지 협업 도구를 추천하고 특정 브랜드를 제외하면, 그 브랜드는 사용자에게 존재하지 않는 것처럼 보인다. AI 추천의 “두 번째 페이지"가 없다.
문화 인코딩: 새로운 시장 장벽
대형 언어 모델은 인터넷에서 스크래핑한 대규모 텍스트 코퍼스, 학술 출판물, 책 등 다양한 출처를 기반으로 훈련된다. 그러나 이러한 코퍼스는 문화적 또는 언어적으로 중립적이지 않다. GPT-4와 Claude와 같은 서양의 LLM은 주로 서양 출처에서 영어 내용을 훈련하며, Qwen과 DeepSeek와 같은 중국의 LLM은 대규모의 중국어 콘텐츠를 포함한다.
이 훈련 데이터 지리가 우리가 “문화 인코딩"이라고 부르는 현상을 생성한다: LLM 출력에서 체계적인 패턴을 반영하며, 이 패턴은 훈련 코퍼스의 문화적 및 언어적 구성에 기반한다. 서양의 영어 기술 포럼에서 광범위한 문서화, 사례 연구, 커뮤니티 논의가 있는 브랜드는 서양 LLM이 추천하기를 “학습"하게 된다. 반면 중국어 콘텐츠가 풍부하지만 영어 콘텐츠가 제한적인 브랜드들은 서양의 LLM에 대해 시각적으로 존재하지 않다.
우리의 분석은 문화 인코딩이 질의 언어와 독립적으로 작동한다는 것을 보여준다. 1,909개의 순수 영어 질의-LLM 쌍을 분석한 결과, 중국의 LLM은 브랜드를 추천하는 비율(88.9%)이 국제적인 LLM(58.3%)보다 훨씬 높음을 보여준다 ($`\chi^2=226.60`$, $`p<.001`$). 이 30.6% 포인트의 차이는 언어 혼동이나 사용자 선호도에 귀속되지 않으며, 훈련 데이터의 문화적 구성에서 기원한다.
존재 간극
우리는 브랜드가 LLM 훈련 데이터에서 충분한 존재감을 갖지 못하여 AI 생성 추천에서 사라지는 현상을 설명하기 위해 “존재 간극"이라는 개념을 도입한다. 전통적인 시장 진출 장벽(관세, 규제, 유통 네트워크)과 달리, 존재 간극은 알고리즘적이고 눈에 보이지 않는 것이다. 브랜드는 우수한 제품 기능, 경쟁력 있는 가격, 강력한 고객 만족도를 갖더라도, “데이터 무지개 깊이"가 부족하면 AI 추천에서 완전히 사라질 수 있다.
Zhizibianjie는 이 현상을 잘 보여준다. 우리의 경험적 분석은 다음과 같은 결과를 제시한다:
-
국제 LLMs (GPT-4o, Claude, Gemini): 32개의 Zhizibianjie 관련 질의에서 0% 언급률
-
중국어 LLMs (Qwen3, DeepSeek, Doubao): 32개의 Zhizibianjie 관련 질의에서 65.6% 언급률
-
통계적 유의성: $`\chi^2=21.33`$, $`p<.001`$,
$`\phi=0.58`$ (큰 효과 크기)
이 극명한 이분법 — 동일한 질의 맥락에서 0% 대 65.6% — 존재 간극을 검증한다. Zhizibianjie는 포괄적인 중국어 문서화와 커뮤니티 참여로 인해 중국어 LLM 지식 기반에 “존재"하지만, 영어 기술 콘텐츠가 제한적이기 때문에 서양의 LLM에서는 존재하지 않는다.
논문 구조
이 논문의 나머지는 다음과 같이 진행된다. 제2장은 생성 엔진 최적화, AI 시스템의 문화 편향, 이론 기반에 대한 문헌을 검토한다. 제3장에서는 우리의 이론적 프레임워크를 개발하고 검증 가능한 가설을 제시한다. 제4장에서는 방법론을 설명한다. 제5장에서는 결과를 제시한다. 제6장에서는 이론적 기여와 관리적 함의를 논의한다. 제7장은 미래 연구 방향에 대해 결론을 내린다.
문헌 검토
검색 엔진 최적화에서 생성 엔진 최적화로
정보 검색 시스템의 진화는 브랜드가 가시성을 얻는 방법을 근본적으로 재구성했다. 전통적인 SEO는 1990년대 말에 웹사이트들이 검색 엔진 결과 페이지에서 순위 위치를 위해 경쟁하기 시작하면서 등장했다. SEO 전략은 키워드 밀도, 후방 링크의 질, 페이지 로딩 속도 및 모바일 호환성과 같은 알고리즘 신호에 초점을 맞췄다. 성공은 순위 위치로 측정되었으며, 상위 3개의 유기적 결과는 클릭의 60% 이상을 차지했다.
그러나 대형 언어 모델의 등장은 패러다임 전환을 가져왔다. 검색 엔진이 웹 페이지 목록을 반환하는 것이 아니라, AI 시스템은 정보를 합성하여 직접 답변한다. 2023년에 출시된 Google의 Search Generative Experience (SGE)는 기존 검색 결과 위에 AI 생성 요약을 표시한다. ChatGPT, Claude와 같은 대화형 AI 시스템은 검색 엔진을 완전히 우회하고 자연어 생성으로 질의를 답변한다.
이 변화는 생성 엔진 최적화(GEO) — 브랜드가 AI 생성 콘텐츠에서 언급되는 것을 증가시키기 위한 전략 — 의 필요성을 요구한다. SEO와 달리 사용자가 여러 옵션을 보고 선택할 수 있는 반면, GEO는 이진 결과를 갖는다: 브랜드들은 언급되거나 부재하다. Aggarwal et al. (2023)은 웹 콘텐츠에 인용, 통계 및 인용문을 추가하여 LLM 언급률을 40-115% 증가시킬 수 있음을 보여주지만, 그들의 연구는 콘텐츠 최적화 전략에 초점을 맞추며, 기본 가시성을 결정하는 구조적인 요인 — 훈련 데이터 구성 — 에 대해서는 다루지 않는다.
우리의 연구는 GEO 문헌을 확장하여 문화 인코딩을 조사한다: 훈련 데이터 지리가 LLM 생태계에서 브랜드 가시성에 체계적인 차이를 만드는 방법. Aggarwal et al.은 내부-LLM 최적화를 연구하지만, 우리는 문화와 언어의 훈련 데이터 구성으로 인한 LLM 간 차이점을 조사한다.
인공 지능 시스템의 문화 편향
AI 시스템에서 문화적 편향을 문서화하는 연구가 증가하고 있다. Bolukbasi et al. (2016)은 단어 임베딩에서 성별 편향을 보여주며, “프로그래머"라는 단어는 여성 대명사보다 남성 대명사를 더 강하게 연관시킨다. Caliskan et al. (2017)은 단어 임베딩이 인종, 성별 및 나이에 대한 인간 같은 편향을 반영한다는 것을 보여준다. 이러한 편향은 학습 데이터가 언어 속에 내재된 사회적 선입견을 반영하기 때문에 발생한다.
문화적 편향은 사회 범주를 넘어 지리적 및 언어적인 차원으로 확장된다. Hovy와 Spruit (2016)는 주로 영어 데이터로 학습된 NLP 시스템이 비영어 언어에 대해 성능이 떨어진다는 것을 문서화한다. Zhao et al. (2021)은 다국어 모델이 “언어 특정 편향"을 나타내며, 의미 내용이 동일한 경우에도 모델 출력이 체계적으로 언어에 따라 다르게 나타난다.
최근 연구는 LLM에서의 문화적 편향에 대해 조사한다. Navigli et al. (2023)은 GPT-4가 지식 표현에서 서양 중심적인 편향을 보이고, 유럽 및 북아메리카 개체를 아시아와 아프리카의 대응물보다 더 선호한다는 것을 보여준다. Cao et al. (2023)은 ERNIE와 ChatGLM과 같은 중국의 LLM이 반대 편향을 나타내며, 중국 개체를 선호한다고 보여준다. 그러나 이러한 연구는 사실적 지식(예: “X의 대통령은 누구인가?")에 초점을 맞추지만 브랜드 추천에는 적용되지 않는다.
우리의 기여는 AI 중재 시장에서 브랜드 가시성에 문화 편향을 확장하는 것이다. 우리는 훈련 데이터 지리가 체계적으로 브랜드 언급률 차이를 만든다는 것을 보여주며, 중국의 LLM은 국제적인 LLM보다 30.6% 포인트 더 높은 언급률을 나타낸다($`\chi^2=226.60`$, $`p<.001`$). 특히 순수 영어 질의에서 이 효과가 계속되는 것을 보여주며, 문화 인코딩이 질의 언어와 독립적으로 작동함을 나타낸다.
이론적 기반
우리의 이론적 프레임워크은 세 가지 확립된 이론을 통합하여 Cultural Encoding과 그 전략적 함의를 설명한다.
자원기반이론(RBT): Barney (1991)은 기업들이 가치 있는, 드문, 모방하기 어려운, 그리고 대체 불가능한(VRIN) 자원을 통해 지속 가능한 경쟁 우위를 달성한다고 주장한다. 전통적인 적용에서는 물리적 자산(공장, 특허)과 무형 자산(브랜드 인지도, 조직 문화)에 초점을 맞춘다. 우리는 RBT를 AI 시장에서 AI 가시성 콘텐츠로 확장한다.
AI 가시성 콘텐츠 — 기술 문서화, 사례 연구, 커뮤니티 논의, API 참조 —는 VRIN 특성을 갖춘다:
-
가치 있는: LLM 브랜드 언급을 주도하여 소비자 탐색에 영향을 미침
-
드문: 대부분의 브랜드들이 체계적으로 포괄적이고 의미론적으로 풍부한 콘텐츠를 생성하지 않음
-
모방하기 어려운: 18개월 이상의 지속적인 투자가 필요한 콘텐츠 생성, 커뮤니티 참여 및 기술 깊이
-
대체 불가능한: AI 가시성을 위한 대안 메커니즘이 없음; 훈련 데이터에서 부재인 브랜드는 계속해서 존재하지 않음
우리는 이 전략적 자원을 데이터 무지개라고 명명하며, Warren Buffett의 “경제적 무지개” 개념(1993)에 유사하다. 경제적 무지개가 규모 경제를 통해 경쟁에서 보호하듯이, 데이터 무지개는 포괄적인 콘텐츠 존재로 인해 브랜드를 알고리즘적 불시의성으로부터 보호한다. Zhizibianjie의 국내 성공(중국어 LLM에서 65% 언급률)은 효과적인 데이터 무지개 구축을 보여주며, 국제 부재(서양 LLM에서 0%)는 데이터 무지개 부족의 결과를 설명한다.
기관 이론: DiMaggio와 Powell (1983)은 조직이 그 환경과 동일하게 되는 세 가지 메커니즘 — 강제력적, 모방적, 규범적 — 을 식별한다. Scott (1995)은 규제, 규범 및 문화인지 기둥을 통해 시장 진입에 장벽을 만드는 방법으로 이 프레임워크를 확장한다.
우리는 기관 이론을 AI 중재 시장에서 언어적 경계 장벽을 설명하는 데 적용한다:
-
규제 기둥: LLM 훈련 데이터 구성은 가시성을 달성할 수 있는 브랜드를 “규제"하며, 효과적으로 시장 접근 규칙을 생성
-
규범 기둥: 서양의 LLM은 영어 콘텐츠를 우선시하여 서양 문서화가 있는 브랜드를 선호하는 관행을 설정
-
문화인지 기둥: 학습 데이터 패턴이 “주어진” 지식 구조가 되며, 훈련 코퍼스에서 부재인 브랜드는 LLM에 대해 인지적으로 존재하지 않음
전통적인 규제 장벽(관세, 면허 요구 사항)과 달리 언어적 경계 장벽은 알고리즘적이고 눈에 보이지 않는 것이다. 브랜드들은 명시적인 정책을 통해 시장에서 배제되지 않고 훈련 데이터 부재를 통한 “알고리즘적 강제” 형태로 배제된다.
시장 신호 이론: Spence (1973)은 정보 비대칭이 존재하는 시장에서 판매자가 구매자에게 관찰할 수 없는 질을 전달하기 위해 신호를 사용한다는 것을 보여준다. 고품질 기업들은 교육, 보증, 인증과 같은 비용이 드는 신호에 투자하며 저품질 기업들이 모방할 수 없음으로써 구매자가 품질을 구분하도록 한다.
우리는 AI 중재 시장에서 데이터 무지개 깊이가 브랜드 품질을 LLM에 신호하는 것을 확장한다:
-
기술 문서화의 깊이 $`\rightarrow`$ 엔지니어링 능력과 플랫폼 성숙도를 신호
-
API 문서화 및 SDKs $`\rightarrow`$ 개발자 친화성과 생태계 건강을 신호
-
사례 연구와 고객 증언 $`\rightarrow`$ 시장 인정과 채택을 신호
-
커뮤니티 참여( GitHub 스타, Stack Overflow 답변) $`\rightarrow`$ 활발한 사용자 기반을 신호
LLM은 추천을 생성할 때 이러한 신호를 해석한다. 포괄적인 데이터 무지개가 있는 브랜드는 강력한 품질 신호를 보내고 언급 확률을 증가시킨다. 반면, 실제 제품 품질과 상관없이 이러한 신호가 부족한 브랜드들은 AI 시스템에 대해 능력을 전달하지 못하여 존재 간극이 발생한다.
종합 및 연구 공백
기존 문헌은 세 가지 핵심 통찰을 제공한다: (1) GEO는 중요한 브랜드 가시성 전략으로 부상하고 있음, (2) AI 시스템은 훈련 데이터 구성에 반영된 문화적 편향을 보임, 그리고 (3) 전략적 자원, 제도적 장벽 및 정보 비대칭이 시장 결과를 형성한다. 그러나 세 가지 공백이 남아있다:
공백 1: 구조적인 vs. 작전적인 GEO 요인: 이전의 GEO 연구는 콘텐츠 최적화 전략(참고문헌 추가, 통계)에 초점을 맞추지만, 기본 가시성을 결정하는 구조적 요인 — 훈련 데이터 지리, 문화 구성 — 에 대한 이해가 부족하다.
공백 2: 교차 문화 LLM 비교: 문화 편향 연구는 내부-LLM 편향(GPT-4의 서양 편향)을 검토하지만 다른 학습 코퍼스에서 발생하는 LLM 간 차이점에 대한 실증적 증거가 부족하다.
공백 3: 알고리즘 가시성 전략 프레임워크: RBT, 기관 이론 및 신호 이론은 경쟁 우위, 장벽 및 정보 비대칭을 설명하지만, 이러한 이론을 통합하는 적용 프레임워크가 부족하다.