인공지능 창의성: 의미망과 아이디어 독창성의 관계

인공지능 창의성: 의미망과 아이디어 독창성의 관계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 대형 언어 모델인 ChatGPT‑4o와 81명의 심리학 전공 학생을 대상으로 의미망 구조와 발산적 과제에서의 아이디어 독창성 간의 연관성을 조사하였다. 높은 창의성을 보이는 인간 집단과 비교했을 때, ChatGPT‑4o는 더 경직된 의미망을 가졌음에도 불구하고 낮은 창의성 인간보다 높은 독창성을 나타냈다. 이는 인간의 동기 과정과 모델의 하이퍼파라미터 차이에 기인한다는 결론을 제시한다.

상세 분석

이 논문은 인공지능 창의성 연구에 인간 창의성 이론을 직접 적용한 점이 가장 큰 특징이다. 연구자는 ‘의미망(semantic network)’이라는 개념을 사용해 개념 간 연관성의 유연성을 정량화하고, 이를 발산적 사고를 측정하는 대표적 과제인 대체 용도 과제(Alternate Uses Task, AUT)의 독창성 점수와 연결시켰다. 인간 참가자는 창의성 점수에 따라 상위 창의성 집단(HCH)과 하위 창의성 집단(LCH)으로 나뉘었으며, 각각 40명 내외로 구성되었다. ChatGPT‑4o는 동일한 AUT 프롬프트에 대해 여러 번 질의하여 평균 독창성 점수를 산출했고, 의미망은 자동화된 단어 연관 분석을 통해 그래프 지표(클러스터링 계수, 평균 경로 길이 등)로 표현하였다.

주요 결과는 세 가지로 요약된다. 첫째, 인간 HCH 집단은 LCH 집단보다 의미망이 더 유연하고, 독창성 점수도 유의하게 높았다. 이는 기존 심리학 연구와 일치한다. 둘째, ChatGPT‑4o는 인간 HCH보다 의미망이 더 경직됐음에도 불구하고 독창성 점수는 HCH와 비슷하거나 약간 낮았다. 셋째, LCH와 비교했을 때, ChatGPT‑4o는 의미망이 더 경직됐음에도 불구하고 독창성 점수가 현저히 높았다. 연구자는 이를 인간의 동기·자기 효능감 차이와 LLM의 샘플링 온도, 토큰 제한 등 하이퍼파라미터 설정 차이로 설명한다.

방법론적 강점으로는 인간‑기계 데이터를 동일 과제와 동일 평가 기준으로 수집한 점, 의미망을 정량적 그래프 지표로 변환한 점을 들 수 있다. 그러나 제한점도 명확하다. 첫째, ChatGPT‑4o는 ‘블랙박스’ 모델로서 내부 메커니즘을 직접 관찰할 수 없으며, 하이퍼파라미터 정보가 공개되지 않아 인과관계 규명에 한계가 있다. 둘째, 인간 표본이 심리학 전공 학생에 국한돼 일반 인구로의 외삽이 어려우며, 동기·감정 상태를 통제하지 않아 결과에 혼재 요인이 존재한다. 셋째, 의미망 구축에 사용된 단어 연관 데이터가 LLM과 인간의 언어 사용 차이를 충분히 반영하지 못할 가능성이 있다.

이러한 결과는 인공지능 창의성 연구에 두 가지 시사점을 제공한다. 첫째, 의미망의 유연성은 인간 창의성의 중요한 전제이지만, LLM에서는 하이퍼파라미터 조정으로 ‘인위적’ 독창성을 끌어낼 수 있음을 보여준다. 둘째, CST(창의성 지원 도구) 설계 시 인간의 동기·자기조절 메커니즘을 고려한 인터페이스와, LLM의 출력 다양성을 조절하는 파라미터 튜닝이 동시에 필요함을 강조한다.


댓글 및 학술 토론

Loading comments...

의견 남기기