머신러닝, 데이터 속에 숨은 의미는 없다
초록
본 논문은 머신러닝을 “데이터에서 의미 있는 정보를 추출한다”는 전통적 정의를 비판한다. 의미는 데이터 자체가 아니라 데이터를 해석하는 관찰자 사이의 합의와 관습에 의해 형성되므로, 어떠한 알고리즘도 데이터만으로 그 의미를 자동으로 얻을 수 없다고 주장한다. 따라서 머신러닝을 정당화하려는 시도는 근본적으로 잘못되었다는 결론을 제시한다.
상세 분석
이 논문은 정보론과 인식론을 결합한 철학적 입장에서 머신러닝의 기본 전제를 재검토한다. 저자는 “의미는 데이터에 내재한다”는 가정을 두 가지 주요 논거로 반박한다. 첫째, 의미는 관찰자 집단이 사전에 공유한 언어적·문화적 규약에 의해 정의되며, 이는 객관적 데이터 구조와는 독립적인 차원에 존재한다는 점이다. 예를 들어, 동일한 이미지 파일이 “고양이”라는 라벨을 갖는지는 인간이 사전에 만든 라벨링 체계에 달려 있다. 둘째, 데이터 자체는 통계적 패턴과 엔트로피 수준만을 제공한다. 샤논의 정보 이론이 말하는 ‘정보’는 불확실성 감소를 의미하지만, 이것이 곧 인간이 이해하는 ‘의미’와 동일시될 수 없다는 것이 핵심이다.
논문은 이어서 현재 머신러닝 연구가 데이터-라벨 쌍을 통해 의미를 “학습”한다는 전제를 비판한다. 라벨은 인간이 부여한 외부적 의미이며, 알고리즘은 그 라벨을 예측하는 함수에 불과하다. 따라서 모델이 높은 정확도를 달성한다 하더라도, 그것은 관찰자 간의 의미 합의를 재현한 것일 뿐, 데이터 자체에서 새로운 의미를 창출한 것이 아니다.
또한, 저자는 “프라이빗 정보”라는 개념을 도입해, 개인이나 집단이 독점적으로 보유한 의미 체계는 외부 데이터만으로는 복원될 수 없다고 주장한다. 이는 메타러닝, 전이학습, 자기지도학습 등 최신 접근법이 제시하는 ‘데이터 자체에서 의미를 스스로 발견한다’는 주장에 대한 강력한 반증으로 작용한다.
비판적 시각을 뒷받침하기 위해 논문은 철학자 하이데거와 비트겐슈타인의 언어게임 이론을 인용한다. 의미는 ‘사용’에 의해 살아 움직이며, 데이터는 그 사용을 기록한 정적인 표상에 불과하다는 점을 강조한다. 결국, 머신러닝이 “정보 추출”이라는 미명 아래 수행하는 모든 작업은 관찰자와 관찰 대상 사이의 사전 협의에 의존하는 ‘통계적 추정’에 지나지 않는다.
이러한 논의는 머신러닝 연구자들에게 두 가지 함의를 제공한다. 첫째, 모델 성능 평가에 라벨링 품질과 의미 합의의 투명성을 반드시 포함시켜야 한다는 점이다. 둘째, 데이터 자체만으로는 인간 수준의 의미 이해를 구현할 수 없으므로, 인간-기계 상호작용을 통한 의미 협상 메커니즘을 설계하는 연구가 필요하다는 점이다.
요약하면, 논문은 머신러닝이 “데이터에서 의미를 추출한다”는 전통적 정의를 철학적·정보론적 근거를 들어 일축하고, 의미는 관찰자 공동체의 합의에 의해 형성된다는 점을 강조한다. 이는 현재 AI·ML 커뮤니티가 직면한 의미론적 한계를 재조명하고, 향후 연구 방향에 대한 중요한 사유점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기