집단 지능 활용 야후 답변 시간 행동 분석

초록

본 연구는 야후 답변(Yahoo Answers)에서 질문자가 답변 수와 대기 시간을 어떻게 균형 맞추는지를 실증적으로 조사한다. 답변 수가 적을 때는 추가 답변을 얻기 위해 더 오래 기다리는 경향이 있으며, 이는 정보 수집에 대한 감소하는 한계수익을 시사한다. 또한 사용자가 답변 품질에 따라 추가 답변을 기다릴지 결정하는 임계값 모델을 제시하고, 답변 수 분포가 역가우시안(Zipf‑유사) 형태임을 데이터로 검증한다.

상세 요약

이 논문은 두 가지 상보적인 접근법을 통해 집단 지능 수집 과정에서 시간 비용과 정보 가치 사이의 트레이드오프를 정량화한다. 첫 번째 접근은 질문자가 “답변 수”라는 정량적 목표와 “대기 시간”이라는 비용을 동시에 고려한다는 가정 하에, 사용자의 효용 함수를 추정한다. 효용 함수는 일반적인 형태인 U(N, t)=f(N)−c·t 로 모델링되며, 여기서 N은 받은 답변 수, t는 마지막 답변까지의 대기 시간, c는 시간당 비용 계수이다. 데이터 분석 결과, f(N)은 초기 구간에서 급격히 상승하다가 점차 완만해지는 형태를 보이며, 이는 ‘감소하는 한계 수익’(diminishing marginal returns)을 의미한다. 구체적으로, 첫 번째와 두 번째 답변을 얻기 위해 필요한 추가 대기 시간은 평균 1.2시간이지만, 다섯 번째 이후의 답변을 얻기 위해서는 평균 0.4시간만 추가로 기다리면 된다. 이는 사용자가 초기 답변을 확보하는 데 더 큰 가치를 부여하고, 일정 수준 이상에서는 추가 답변의 가치를 낮게 평가한다는 점을 시사한다. 효용 함수 추정 과정에서 로그선형 회귀와 최대우도 추정법을 활용했으며, 파라미터 추정값은 통계적으로 유의미함을 보였다( p < 0.01 ).

두 번째 접근은 사용자가 개별 답변의 품질을 평가하고, 현재 답변이 일정 임계값 θ를 초과하면 추가 답변을 기다리지 않는다는 ‘임계값 정책(threshold policy)’을 가정한다. 이때 답변 도착 간격은 포아송 프로세스로 모델링하고, 품질이 독립적인 확률 변수로 가정된다. 임계값 정책 하에서 질문이 받는 총 답변 수 N은 역가우시안(Inverse Gaussian) 분포를 따르게 되며, 이는 확률 밀도 함수가 f(N)=√(λ/(2πN³))·exp

초록

상세 요약

📜 논문 원문 (영문)