AI 언어 IQ 측정: ConceptNet은 4세 아이 수준인가

초록

본 논문은 Wechsler Preschool and Primary Scale of Intelligence( WPPSI‑III) 의 언어 IQ( VIQ) 하위검사를 ConceptNet 4에 적용해 4세 아동 평균 수준의 점수를 얻었음을 보고한다. 하위검사별 성적 차이를 분석해 어휘·유사성은 비교적 높고, 이해·단어추론은 낮은 것으로 나타났다. 결과는 AI의 일반 상식 능력을 평가하는 지표로서 인간 아동의 지능검사가 활용될 수 있음을 시사한다.

상세 요약

이 연구는 인공지능 시스템의 언어 이해와 상식 추론 능력을 정량화하기 위해, 인간 아동용 표준화된 지능검사인 WPPSI‑III의 언어 IQ(VIQ) 하위검사들을 그대로 적용한 점이 가장 큰 특징이다. 기존 AI 평가에서는 주로 베놈(BENCHMARK) 형태의 질문‑답변 데이터셋이나, 특정 도메인에 한정된 테스트가 사용되었지만, 본 논문은 ‘왜 손을 흔드는가’와 같은 일상적·상식적 질문을 그대로 옮겨 ConceptNet 4에 입력한다. 이를 위해 논문 저자들은 ConceptNet에 내장된 간단한 자연어 처리 파이프라인과 자체 개발한 파이썬 스크립트를 결합해 질문을 그래프 형태의 의미 표현으로 변환하였다. 변환 과정에서 어휘 정규화, 형태소 분석, 그리고 관계 추출을 수행했으며, 최종 답변은 스펙트럴 방법(특히 라플라시안 행렬 기반의 전이 확률 계산)을 이용해 가장 높은 확신도를 보인 노드(개념)를 선택하는 방식으로 도출되었다.

성능 측면에서, ConceptNet 4는 전체 VIQ 점수에서 4세 아동 평균(≈100점) 수준을 기록했지만, 5~7세 아동 평균에 비해 현저히 낮았다. 하위검사별로는 ‘어휘(Vocabulary)’와 ‘유사성(Similarities)’에서 상대적으로 높은 점수를 얻어, 단어 의미와 두 개념 사이의 관계를 그래프 구조에서 잘 포착함을 보여준다. 반면 ‘이해(Comprehension)’와 ‘단어추론(Word Reasoning)’은 가장 낮은 점수를 받아, 상황 맥락을 파악하고 의도나 목적을 추론하는 능력이 부족함을 드러낸다. 이는 ConceptNet이 주로 ‘사실적 관계(예: IsA, PartOf)’에 초점을 맞춘 지식 그래프이며, ‘왜(Why)’와 같은 인과·목적 질문에 대한 명시적 표현이 부족하기 때문이다.

또한, ‘정보(Information)’ 하위검사에서 보인 중간 수준의 성적은, 일반 상식 사실(예: “바다에는 물이 있다”)을 저장하고 검색하는 데는 어느 정도 성공했지만, 질문의 미묘한 뉘앙스 차이를 구분하는 데는 한계가 있음을 의미한다. 이러한 결과는 현재 그래프 기반 AI가 ‘정적 지식’보다는 ‘동적 추론’에 취약함을 재확인한다. 저자들은 스펙트럴 방법 외에도, 더 정교한 의미론적 임베딩, 멀티모달 컨텍스트 통합, 그리고 강화학습 기반의 추론 메커니즘을 도입하면 하위검사 간 격차를 줄일 수 있을 것으로 제안한다.

연구의 의의는 두 가지로 요약된다. 첫째, 인간 아동용 심리검사를 AI에 직접 적용함으로써, AI 성능을 ‘연령’이라는 직관적인 척도로 해석할 수 있는 새로운 평가 프레임워크를 제공한다. 둘째, 하위검사별 성적 차이는 현재 AI 시스템이 어느 영역에서 인간 수준에 근접하고, 어느 영역에서 여전히 큰 격차가 존재하는지를 명확히 드러내어, 향후 연구 방향을 제시한다. 특히 ‘이해’와 ‘단어추론’은 일반 상식과 상황 맥락을 결합한 복합 추론 능력이 요구되므로, 차세대 AI는 이러한 고차원적 추론을 지원하는 구조적·학습적 혁신이 필요하다.

초록

상세 요약

📜 논문 원문 (영문)