_chatGPT의 추천에서 다양성, 신선함 및 인기 편향 탐색

읽는 시간: 9 분
...

📝 원문 정보

- Title: Exploring Diversity, Novelty, and Popularity Bias in ChatGPT s Recommendations
- ArXiv ID: 2601.01997
- 발행일: 2026-01-05
- 저자: Dario Di Palma, Giovanni Maria Biancofiore, Vito Walter Anelli, Fedelucio Narducci, Tommaso Di Noia

📝 초록

ChatGPT는 다양한 분야에서 능력을 보여주는 다재다능한 도구로 부상하고 있다. 이러한 성공에 따라 추천 시스템(RS) 커뮤니티에서는 주로 정확도에 초점을 맞추고 ChatGPT의 추천 시나리오 내 적용을 조사하기 시작했다. ChatGPT가 RS에 통합되면서 많은 관심을 받았지만, 다양한 차원에서의 성능에 대한 포괄적인 분석은 아직 충분히 이루어지지 않았다. 특히 다각도의 다양성과 새로운 추천 제공 능력, 인기도 편향 가능성 등이 철저하게 검토되지 않은 상태이다. 이러한 모델의 사용이 계속 확대됨에 따라 이러한 측면을 이해하는 것은 사용자 만족도를 높이고 장기적인 개인화를 달성하는 데 중요하다.

본 연구는 ChatGPT-3.5와 ChatGPT-4가 제공하는 추천을 분석하여 다양성, 신규성 및 인기도 편향 측면에서 ChatGPT의 능력을 평가한다. 세 가지 다른 데이터셋에서 이 모델들을 평가하고 상위 N개 추천과 냉기 시작 시나리오에서의 성능을 분석한다. 결과는 ChatGPT-4가 전통적인 추천자들과 맞먹거나 그 이상으로, 추천에서 신규성과 다양성을 균형 있게 유지할 수 있음을 보여준다. 또한 냉기 시작 시나리오에서는 ChatGPT 모델들이 정확도와 신규성 측면에서 우수한 성능을 나타내어 새 사용자에게 특히 유익하다는 것을 나타낸다. 이 연구는 ChatGPT의 추천에 대한 강점과 한계를 강조하고, 정확도 중심 지표를 넘어 이러한 모델들이 제공할 수 있는 추천 능력을 재해석한다.

💡 논문 해설

1. **원리 설명**: - **기초**: 추천 시스템은 사용자의 선호도를 예측하고 맞춤형 콘텐츠를 제공함으로써 유용한 정보를 찾아주는 역할을 합니다. ChatGPT는 이 과정에서 더 나은 추천을 생성하는 데 도움을 줍니다. - **중급**: 기존의 추천 시스템이 정확도 중심으로 작동한다면, ChatGPT는 다양성, 신선함, 인기도 편향 등 다양한 측면에서 더 나은 성능을 보입니다. 이는 사용자가 다양한 경험을 얻을 수 있게 합니다. - **고급**: ChatGPT는 대형 언어 모델(Large Language Models, LLMs)의 한 종류로, 텍스트 생성에 능한 모델입니다. 이를 추천 시스템과 결합하면 기존 추천 시스템보다 더 광범위하고 세밀한 설명을 제공할 수 있습니다.
  1. 연구 방법:

    • 기초: 연구팀은 ChatGPT를 사용하여 다양한 데이터셋에서 추천의 다양성, 신선함, 인기도 편향을 평가했습니다.
    • 중급: 이를 위해 역할극(Role-Playing) 프롬프트를 활용한 방법론을 개발했으며, 이 방법은 중복 추천을 줄이고 더 나은 결과를 제공합니다.
    • 고급: 프롬프트 설계는 GPT-3의 성공 사례에서 영감을 받아 제작되었으며, 다양한 프롬프트 기법을 사용해 최적화된 모델을 생성했습니다.
  2. 연구 의의:

    • 기초: 이 연구를 통해 ChatGPT가 추천 시스템에 어떻게 통합될 수 있는지 이해할 수 있습니다.
    • 중급: 다양한 데이터셋을 이용한 평가는 ChatGPT가 실제 사용자에게 더 나은 경험을 제공하는 데 중요한 역할을 할 수 있음을 보여줍니다.
    • 고급: 이 연구는 추천 시스템의 정확도를 넘어 다양성, 신선함, 인기도 편향 등 다양한 측면에서 ChatGPT가 어떻게 작동하는지 분석하고 있습니다.

📄 논문 발췌 (ArXiv Source)

\[ email=d.dipalma2@phd.poliba.it, \]

[ email=giovannimaria.biancofiore@poliba.it, ]

[ email=vitowalter.anelli@poliba.it, ]

[ email=fedelucio.narducci@poliba.it, ]

[ email=tommaso.dinoia@poliba.it, ]

ChatGPT , 추천 시스템 (RSs) , 대형 언어 모델 (LLMs), 다양성 , 신선함 , 인기도 편향 , Cold-Start

서론

추천 시스템(RSs)은 오랫동안 웹에서 사용자의 선호도를 예측하고 맞춤형 콘텐츠를 제공하여 가치 있는 정보를 찾아주는 역할을 해왔습니다. 시간이 지남에 따라 이러한 시스템들은 행렬 분해 접근법에서 시작하여 심층 학습 모델로 진화했습니다. 이들 모델은 원래 시간 시리즈 예측, 자연어 처리, 컴퓨터 비전 등 다른 영역에서 개발되었습니다. 정확도를 향상시키는 데 있어 큰 발전을 이루었음에도 불구하고, 현재 사용자 모델링과 개인화 커뮤니티의 연구에서는 다양성, 신선함 및 인기도 편향과 같은 정확도를 벗어난 관점을 중요시합니다. 이러한 요인들은 시스템의 전체 효과성을 뿐만 아니라 사용자의 만족도, 장기적인 참여, 그리고 공정성에도 영향을 미칩니다.

2022년 11월에 ChatGPT가 출시되면서 대형 언어 모델(LLMs)은 추천이 전달되는 방식을 재구성하기 시작했습니다. 기존 RSs는 정교하게 구조화된 훈련 데이터를 기반으로 작동하지만, LLMs는 자유 형식의 텍스트를 생성할 수 있어 광범위한 지식을 활용하여 세밀한 설명과 더 넓은 항목 커버리지를 제공할 수 있습니다. 따라서 연구 커뮤니티는 현재 LLM을 기반으로 하는 추천 파이프라인을 실험하고 있으며, 이로 인해 추천 정확도가 크게 향상되는 성공 사례를 보고 있습니다. 그러나 대부분의 ChatGPT 기반 추천 시스템 연구는 정확도를 높이는 것에 중점을 두면서 정확도를 벗어난 관점은 간과하고 있습니다.

ChatGPT의 정확도를 넘어서는 행동을 무시하면, 연구자들에게 검은 상자가 되어 ChatGPT가 인기 항목을 과도하게 추천하거나 신선함을 줄이거나 다양성이 부족한 추천을 제공하는지 판단하기 어렵게 합니다. 이러한 요인들은 사용자의 만족도와 장기적인 개인화 목표에 부정적 영향을 미칠 수 있습니다. 초기 조사에서는 ChatGPT를 재순위 매기기 위한 방법론에 초점을 맞추었으며, 다른 연구는 생성된 추천의 우연성을 조사하거나 ChatGCP가 추천을 어떻게 생성하는지와 그 결과물이 콘텐츠 기반 또는 협업 필터링 접근법 중 어느 쪽과 더 잘 일치하는지를 탐색하기 시작했습니다. 일부 연구는 ChatGPT 기반 추천 시스템의 편향성을 조사하며, 특히 공급자 공정성에 초점을 맞추고 있습니다. 또한 몇몇 작업은 인종, 성별, 종교와 같은 수성이 높은 속성과 관련된 잠재적 편향을 연구하기 시작했지만, ChatGPT에서 추천 다양성, 신선함, 인기도 편향에 대한 연구는 아직 크게 이루어지지 않았습니다. 이러한 간극을 메우는 것은 개인화 기술이 효과적이고 공정하게 작동하도록 보장하는 데 필수적입니다.

따라서 본 논문에서는 ChatGPT의 추천 행동을 분석하는데 초점을 맞추며, ChatGPT-3.5와 ChatGPT-4를 다양한 정확도를 벗어난 지표로 평가합니다. 구체적으로, ChatGPT가 다양하고 신선한 추천을 생성하는지 여부 또는 인기도 편향이 있는지를 확인하고자 합니다. 또한 사용자가 몇 가지 항목만 상호 작용한 cold-start 시나리오에서도 이러한 요인들을 평가합니다. 우리의 평가는 Facebook Books, MovieLens, Last.FM 데이터셋을 벤치마크로 삼아 3개의 독립된 도메인, 즉 책, 영화, 음악에서 이루어졌으며, 다음과 같은 연구 질문(RQs)에 답하려고 합니다:

  1. ChatGPT의 추천은 다양합니까?
  2. ChatGPT의 추천은 신선합니까?
  3. ChatGPT는 인기도 편향에 영향을 받습니까?
  4. 사용자 cold-start 시나리오에서 정확도와 정확도를 벗어난 차원에서 ChatGPT는 얼마나 효과적인가요?

관련 연구

추천 시스템의 다양성, 신선함 및 인기도 편향: 추천 시스템(RSs)이 사용자 참여를 높이는 필요성에 의해 주도된 이 작업은 RSs의 정확도를 벗어난 측정 지표인 다양성, 신선함 및 인기도 편향을 강조하며, 이러한 요인이 ChatGPT가 제공하는 추천 목록에 어떻게 영향을 미치는지 조사합니다.

RSs의 진화 과정에서 연구자들은 정확도 측정 지표만으로 추천을 평가하는 것이 부족하다는 것을 인식하기 시작했습니다. 예를 들어, 추천의 성능은 사용자에게 얼마나 유용한지를 기준으로 측정해야 한다고 주장합니다. 또한 RSs 평가에 대한 조사에서, 추천은 유틸리티, 신선함, 다양성, 의외성, 우연성 및 커버리지 등을 기준으로 평가할 수 있다고 제안합니다. Karimi, Jannach, Jugovac의 연구에서는 현재 가장 선도적인 뉴스 RSs에 대한 리뷰에서 다양성, 신선함 및 인기도를 추천을 개선하는 주요 품질 요인으로 식별했습니다. 특히, 다양성과 신선함은 종종 예측 정확도와 균형을 이루어야 하는 품질 요인으로 간주되며, 추천 시스템 연구에서 가장 많이 논의되는 정확도를 벗어난 목표입니다.

정확도 측정 지표를 넘어서서 RSs를 연구하는 관심이 확산됨에 따라 이러한 지표들을 개선의 목표로 사용하는 더 많은 연구가 시작되었습니다. 예를 들어, 및는 정확한 항목을 예측하면서 동시에 추천에서 높은 수준의 다양성을 달성하기 위한 RSs를 만들기 위해 노력했습니다. 그래프 기반 접근법을 사용하여 신선도가 높은 항목을 식별하는 방법을 제안하였으며, 인기도 편향을 완화하는 방법을 제시하였습니다. 또한의 작업은 정확도를 넘어 RSs를 평가하는 중요성을 강조하고 다목적 평가 접근법을 제안합니다.

많은 연구들이 정확도를 벗어난 지표를 사용하여 RSs를 평가하고 개선하지만, 이전 문헌에는 다양성, 신선함 및 편향에 대한 엄격한 정의를 제공하는 통합 프레임워크가 부족하여 이러한 측정 지표들 사이에 모호성과 겹침이 있습니다. 본 연구에서는 다음과 같이 이러한 개념을 정의합니다: 다양성은 추천 시스템이 카탈로그에서 다양한 항목을 제안하는 정도이며, 이는 및에 의해 지원됩니다. 신선함은 사용자가 독립적으로 발견하기 어려운 관련 경험이 포함된 항목들이 얼마나 많이 추천되는지의 정도입니다. 인기도 편향은 추천 시스템이 많은 상호작용을 가진 인기 있는 항목에 비해 덜 인기 있는 또는 니치한 항목을 더 선호하는 경향을 의미합니다. ChatGPT 기반 추천: ChatGPT를 추천에 사용한 첫 번째 예는가 제안한 것에서 시작됩니다. 그들은 ChatREC이라는 ChatGPT 강화 추천 시스템을 소개하면서 추천 작업을 사용자와의 상호작용적인 대화로 변환했습니다. 저자는 사용자 정보 및 사용자-항목 상호 작용을 ChatGPT에 대한 질의로 변환하기 위한 프롬프트 템플릿을 제안하였습니다. 그러나 시스템은 정확도 지표(즉, Recall, Precision, nDCG)만으로 평가되었습니다.는 다중 회화 추천 환경에서 ChatGPT의 성능을 조사하여 그 가능성을 보여주고 기존 방법보다 우수함을 나타냈습니다.는 ChatGPT를 제로샷 설정에 초점을 맞추었습니다. 그들은 전용 프롬프트 템플릿을 설계하여 ChatGPT 모델을 분석하고, 제로샷 추천 작업에서 다른 LLMs에 비해 가장 높은 순위 성능을 달성한 ChatGPT-4를 보여주었습니다.

는 Top-N 추천 작업을 수행하는 ChatGPT의 능력을 조사하며, 관련 추천을 생성하기 위한 가장 효과적인 프롬프트 전략을 확인하고자 했습니다. 저자는 제로샷 설정이 기준 라인에 비해 가장 관련성 있는 추천 목록을 제공한다고 결론지었으나, 이들은 nDCG라는 단일 평가 지표만 사용하여 이러한 결론을 내렸습니다.

는 등급 예측, 쌍방향 추천 및 재순위 매기기 전략을 사용하여 ChatGPT의 능력을 조사했습니다. 그들의 실험은 4개 도메인에서 수행되었으며, 이는 ChatGPT가 항목을 추천하는 데 얼마나 효과적인지를 보여줍니다. 그러나 이 연구는 Top-N 추천에서 ChatGPT의 정확도에 대한 단일 관점을 제공할 뿐입니다.

는 책 추천 시나리오에서 ChatGPT를 적용하기 위한 BookGPT 설계를 제안하였습니다. 그러나 이 연구는 저자들이 책 도메인만을 중점적으로 다루기 때문에 여러 도메인 간의 성능에 대한 일반화된 분석을 제공하지 않습니다.

제시된 모든 작업이 ChatGPT를 사용하여 추천 시스템의 성능을 개선하는 데 초점을 맞추고 있지만, 이들은 주로 정확도 지표에 기반하고 있습니다. 이러한 간극을 메우기 위해 본 연구에서는 Top-N 추천 작업을 조사하며, 다양성, 신선함 및 인기도 편향과 같은 정확도를 벗어난 차원에서 ChatGPT의 성능을 평가합니다.

방법론

다음 섹션에서는 우리의 연구에 사용된 방법론에 대해 논하고, ChatGPT로부터 추천을 수집하기 위해 설계된 프롬프트의 설계를 설명하며, 실험에 사용된 데이터셋과 비교 기준 모델 및 다양성, 신선함 및 인기도 편향을 평가하기 위한 지표를 나열합니다.

프롬프트 설계

GPT-3의 도입은 명확한 작업 특정 프롬프트를 제공할 때 대형 언어 모델(LLMs)이 다양한 작업을 수행하는 능력을 보여주었으며, 이는 프롬프트가 모델의 응답을 조건부로 만들고 주어진 작업에서 성능에 큰 영향을 미치는 역할을 한다는 것을 나타냈습니다.

ChatGPT의 광범위한 확산과 함께 프롬프트 공학에 대한 문헌이 확장되었으며, 기본 프롬프트인 제로샷 및 피우샷에서 체인 오브 쓰ought(Chain-of-Thought), 트리 오브 쓰ought(Tree-of-Thoughts), 리플렉션(Reflexion) 또는 그래프 프롬프팅(Graph-Prompting)과 같은 더 복잡한 프롬프트로 이동했습니다. 다양한 프롬프트 기법 중에서, 우리는 및의 연구를 따르는 제로샷, 피우샷, 체인 오브 쓰ought 및 역할극(Role-Playing, RP) 프롬프팅을 손으로 설계하여 우리의 조사에 가장 효과적인 방법을 확인했습니다.

다음에서는 우리가 설계한 프롬프트를 소개하고, 역할극 프롬프팅이 주요 기법으로 선택된 이유를 설명합니다. 구체적으로 각 사용자와 테스트된 모든 프롬프트에 대해 입력은 사용자의 이력이며, 다음과 같은 형식의 항목 목록으로 제공됩니다: $`\{사용자의 이력\}: Item_1, Item_2, \ldots, Item_{N}`$.

제로샷 프롬프팅: 제로샷 프롬프팅에서는 ChatGPT에 사용자의 이력을 직접 제공하고 50개의 추천을 요청했습니다(참조 예시는 fig. 1 참조). 그러나 생성된 목록 중 $`\sim`$71%는 50개 미만의 항목이 포함되거나 반복 항목을 포함했으며, $`\sim`$6%에서는 작업 실행 오류가 있었습니다.

사용자의 이력 기반 추천 생성을 위한 제로샷 프롬프트 예시

피우샷 프롬프팅: 제로샷 프롬프팅 후, 작업을 더 잘 이해할 수 있도록 몇 가지 추천의 예를 제공하는 피우샷 프롬프팅을 테스트했습니다(참조 fig. 2). 이러한 컨텍스트 예시는 실행 오류를 줄였지만, 생성된 목록 중 $`\sim`$44%가 중복 항목을 포함했습니다.

사용자가 본 영화와 등급에 기반한 추천 및 설명 예시를 보여주는 피우샷 프롬프트

체인 오브 쓰ought(Chain-of-Thought) 프롬프팅: 체인 오브 쓰ought 프롬프팅을 사용하여 추천 작업을 명시적인 단계로 나누어 ChatGPT가 단계별로 추론하도록 시도했습니다. fig. 3에서 보듯이, 명령, 사용자의 선호도 및 가장 적합한 추천을 식별하기 위한 단계를 명시적으로 정의했습니다. 이 접근법은 토큰이 과다하게 생성되어 약 26개 항목을 생성하고 맥락 제한에 도달하는 결과를 초래했습니다.

사용자의 선호도와 단계별 추론을 포함하여 책 추천으로 이어지는 체인 오브 쓰ought 프롬프트 예시

역할극(Role-Playing) 프롬프팅: 및의 연구를 따르는 역할극 프롬프팅도 테스트했습니다. 여기서 ChatGPT는 사용자의 이력을 기반으로 항목을 추천하는 추천 시스템을 연기합니다(참조 fig. 4). 이 전략은 중복 추천을 제거하는 데 가장 효과적이었습니다.

사용자의 이력을 기반으로 50개의 순위 목록 생성을 위한 역할극 추천 프롬프트 예시

30개의 손으로 제작된 프롬프트를 테스트하고 역할극 프롬프팅에 대한 연구와 일치시키면서, 중복과 토큰 사용을 줄이는 능력 때문에 이 접근법을 선택했습니다. 이 설정에서 ChatGPT는 추천 시스템으로 작동하여 사용자의 이력을 기반으로 50개의 추천을 생성합니다(참조 fig. 4).

실험 설정

이 섹션에서는 다양한 정확도를 벗어난 지표로 ChatGPT의 추천 성능을 평가하는 데 사용된 데이터셋, 비교 기준 모델 및 지표에 대해 설명합니다. 특히 다양성, 신선함 및 인기도 편향에 초점을 맞추고 있습니다.

데이터셋: 우리는 MovieLens100k, Last.FM, Facebook Books 3개의 잘 알려진 추천 데이터셋을 사용하여 ChatGPT를 평가했습니다. 데이터 품질을 높이기 위해 반복적인 10코어 필터링 전략을 적용해 최소 10개 이상의 상호 작용을 가진 사용자와 항목만 유지하도록 하였습니다. Table 1은 사전 처리 후의 데이터셋 통계를 보여줍니다.

데이터셋 상호작용 사용자 항목 희소성 콘텐츠
MovieLens 42,456 603 1,862 96.22% 장르
Last.FM 49,171 1,797 1,507 98.18% 장르
FB Books 13,117 1,398 2,234 99.58% 장르, 저자

데이터셋 통계는 사전 처리에 의해 .

기준 모델: ChatGPT의 효과를 측정하기 위해, 우리는 현존하는 비개인화, 협업 필터링 및 콘텐츠 기반 필터링 방법으로 구성된 기준 모델과 실험적으로 비교합니다. 공평한 비교를 위해 엘리엇 프레임워크를 사용하여 기준 모델을 훈련하고 하이퍼파라미터를 최적화하며, 데이터셋을 80% 학습 세트와 20% 테스트 세트로 분할합니다. 모든 미평점 항목 평가 프로토콜에 따라 코드는 .

감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키