간단 설문과 추천 시스템: 사회과학을 위한 새로운 응답 획득 방식
초록
본 논문은 2점, 5점, 연속형(100점) 척도와 쌍대 비교 네 가지 ‘간단 설문’ 방식을 세 가지 시각적 컨텍스트(거리 이미지 안전성, 미술 작품 호감도, 동물 GIF 유머)에 적용해, 개인별·집단별 예측 정확도와 인지 부하를 비교한다. 연속형 척도가 개인 선호 예측에 가장 정확하지만 시간·노력이 많이 들고, 이진 선택은 집단 평균 예측에 유리하지만 개인 맞춤에는 부적합하다. 쌍대 비교는 개인 예측에 강하지만 집단 예측에는 약하다. 또한 행렬 분해 기반 추천 알고리즘을 활용해 응답을 저차원 잠재 공간에 시각화함으로써 응답자들의 질문 해석 차이를 드러낸다.
상세 분석
이 연구는 기존 사회과학 설문이 갖는 ‘전면적·완전’ 평가와 디지털 미디어에서 활용되는 ‘희소·불완전’ 설문을 연결하는 교량 역할을 한다. 네 가지 설문 형태는 각각 인지 부하와 정보량이 상이한데, 2점 이진 설문(R2)은 선택지가 두 개뿐이라 응답 속도가 가장 빠르고, 응답자는 극단적인 판단을 강요받는다. 반면 5점 리커트(R5)는 중간값을 허용해 응답자의 불확실성을 완화하지만, 여전히 제한된 선택지 때문에 정보량이 제한적이다. 연속형 슬라이더(R100)는 사실상 1~100의 정수값으로 이산화되지만, 실질적으로는 거의 무제한에 가까운 해상도를 제공한다. 이는 응답자가 미세한 차이를 표현할 수 있게 해 개인 선호를 정밀하게 포착한다. 그러나 실험 결과, R100은 평균 응답 시간과 인지적 피로도가 가장 높았다. 쌍대 비교(PC)는 두 아이템을 직접 비교하도록 함으로써 상대적 선호를 직접적으로 수집한다. 이 방식은 순위 정보를 제공하지만, 절대적 평점이 없기 때문에 집단 평균을 추정하는 데는 불리하다.
예측 성능 평가는 행렬 분해(Matrix Factorization) 기반 협업 필터링을 사용했다. 응답자‑아이템 매트릭스를 (X\in\mathbb{R}^{m\times n}) 로 두고, 관측되지 않은 원소를 저차원 잠재 요인 (U\in\mathbb{R}^{m\times k}, V\in\mathbb{R}^{k\times n}) 로 근사한다. 이때 (k)는 설명력 기준으로 선택했으며, 교차 검증을 통해 최적의 정규화 파라미터를 탐색했다. 개인 예측에서는 각 응답자의 남은 20개 아이템에 대한 평점을 재구성했으며, 집단 예측에서는 전체 응답자를 합산해 아이템 간 순위(aggregate comparison)를 재구성했다. 결과는 다음과 같다.
- 개인 예측 정확도 – R100이 가장 높은 RMSE 감소율을 보였으며, 그 뒤를 PC가 따랐다. R5와 R2는 상대적으로 낮은 성능을 보였다. 이는 연속형 척도가 미세한 선호 차이를 포착하고, PC가 직접적인 상대 정보를 제공하기 때문이다.
- 집단 평균 예측 – R2가 가장 우수했다. 이진 선택은 응답자 간 변동성을 최소화해 평균을 안정적으로 추정한다. 반면 R100은 개인 차이를 과도하게 강조해 집단 평균을 왜곡한다. PC는 상대적 비교가 개인마다 다르게 해석될 수 있어 집단 순위 재구성에 한계가 있었다.
- 응답 시간·인지 부하 – 평균 응답 시간은 R2 < R5 < PC < R100 순이었다. 특히 R100은 평균 12초 이상 더 걸렸으며, 피로도 설문에서 자가 보고된 집중력 저하와도 연관되었다.
잠재 공간 시각화에서는 첫 번째와 두 번째 특잇값(Principal Components)으로 2차원 플롯을 그렸다. 각 아이템은 (v_1, v_2) 좌표에 배치되고, 응답자는 (u_1, u_2) 좌표에 매핑된다. 안전성 컨텍스트에서는 아이템들이 좁은 클러스터를 형성해 응답자 간 해석이 일관됨을 보여준다. 반면 유머와 미술에서는 아이템이 넓게 퍼져 있어, 응답자들이 ‘재미’ 혹은 ‘미적 가치’를 서로 다른 차원(예: 친숙함 vs. 독창성)으로 해석한다는 점을 드러냈다. 이러한 시각화는 설문 설계 단계에서 질문이 어떤 잠재 차원을 활성화하는지 사전 검증하는 도구로 활용될 수 있다.
전체적으로, 이 논문은 ‘간단 설문’이 데이터 양을 최소화하면서도 목적에 따라 적절히 선택될 수 있음을 실증한다. 개인 맞춤형 추천이나 정밀한 심리 측정이 목표라면 연속형 척도 혹은 쌍대 비교가 바람직하고, 정책 입안이나 대중 의견 수렴처럼 집단 평균이 핵심인 경우 이진 선택이 효율적이다. 또한 행렬 분해를 통한 결측값 보정은 전통적인 완전 설문이 요구하는 비용을 크게 절감하면서도 신뢰할 만한 추정치를 제공한다는 점에서 사회과학 연구에 새로운 방법론적 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기