The classification of metrics and algorithms search for related terms via WordNet, Roget's Thesaurus, and Wikipedia was extended to include adapted HITS algorithm. Evaluation experiments on Information Content and adapted HITS algorithm are described. The test collection of Russian word pairs with human-assigned similarity judgments is proposed. ----- Klassifikacija metrik i algoritmov poiska semanticheski blizkih slov v tezaurusah WordNet, Rozhe i jenciklopedii Vikipedija rasshirena adaptirovannym HITS algoritmom. S pomow'ju jeksperimentov v Vikipedii oceneny metrika Information Content i adaptirovannyj algoritm HITS. Predlozhen resurs dlja ocenki semanticheskoj blizosti russkih slov.
Осветим одну из граней этого феномена, а именно: корпус текстов Википедии 4 обладает особой привлекательностью для поисковых алгоритмов. Вики занимает нишу между, с одной стороны, размеченными корпусами текстов, а с другойинтернет-страницами (где нет никаких надёжных подсказок для алгоритмов, кроме гиперссылок и частоты слов). Перечислим «изюминки» вики-текстов с точки зрения машинной обработки:
• заголовок, максимально точно соответствующий теме статьи. Это выгодно отличает вики от других литературных жанров. Например, броский заголовок газетной статьи «Танцуют все!», рассказывающей однако о Википедии, усложнит жизнь поисковику, учитывающему слова из заголовка;
• первый абзац, обычно дающий краткое описание термина, может содержать основные ключевые слова;
• наличие внутренних ссылок на статьи по данной теме; специальный раздел ссылок «Смотри также»;
• специальный формат для ссылок на статью о том же термине на другом языке (интервики);
• категории, классифицирующие документы по их тематической принадлежности. Достоинством Википедии, как корпуса в целом, является большое количество текстов (больше 200 тыс. на русском, больше двух млн. на английском) и доступность дампов 5 энциклопедии.
Системы поиска семантически близких слов в Википедии помогут пользователям, во-первых, находить энциклопедические статьи, близкие по тематике к заданным, что позволит более глубоко изучить исследуемое понятие, а во-вторых, помогут в указании недостающих ссылок между связанными по смыслу статьями. 6 Далее в статье идёт теоретическая часть, в которой перечислены алгоритмы, применяемые для поиска СБС; рассмотрена мера Резника (Information Content) и её адаптация к таксономии категорий Википедии, описана тестовая коллекция 353-TC. В практической части сравниваются результаты работы AHITS алгоритма с другими на основе данных тезаурусов WordNet, Роже и энциклопедии Википедии.
Поиск семантически близких слов связан с теорией графов, а именно c анализом веб-ссылок (англ. web link analysis) и поиском на основе данных тезауруса Респонденты присвоили значения от 0 до 10 семантической близости парам слов, где 0 указывает на то, что слова совершенно не связаны, 10 -слова почти полные синонимы. В оценке пар слов участвовало 13 человек, обработавших 153 слова, и 16 человек оценивших 200 слов.
Критика данного тестового набора, приведённая в работе [Jarmasz03], заключается в том, что: не приведена методология составления списка, респондентам сложнее давать оценку от 0 до 10, чем на более привычной шкале от 0 до 4. Достоинство данного тестового набора в том, что он:
• превосходит другие тестовые наборы по размеру 13 ; • позволяет оценивать семантическую близость, а не только семантическое сходство 14 .
Для численной оценки степени сходства эталонного списка и автоматически построенного списка (семантически близких слов) адаптирован коэффициент Спирмена (англ. Spearman’s footrule). Модификация позволяет сравнивать ранжирование элементов в списках разной длины. Итак, для исходного слова даны: эталонный список А, построенный экспертом, и автоматически построенный список В. Предлагается добавить в конец списка B элементы А, в нём отсутствующие. Каждому элементу списка назначается ранг (порядковый номер) от 1 до N. Далее применяется формула, где сравниваются положения в списках общих элементов, то есть вычисляется сумма модулей расстояний между i-ми элементами набора, S -число общих элементов:
Коэффициент Спирмена позволяет сравнивать с эталонным списком ранжирование одного и того же набора слов AHITS алгоритмом при разных входных параметрах (размер корневого набора, максимально допустимый вес кластера C max и др.).
В предыдущих работах [Krizhanovsky2006a], [Krizhanovsky2006b] описан адаптированный HITS (далее AHITS) алгоритм, представлены эксперименты по поиску синонимов в английской и русской версии Википедии с помощью AHITS алгоритма и описана сессия поиска синонимов в программе Synarcher. Далее в данной работе описаны результаты и особенности вычисления метрики Information Content (res hypo ) и результаты работы алгоритма AHITS.
Эксперименты по вычислению метрики res hypo в википедиях на английском, simple 16 и русском языках показали, что есть некоторые особенности, определяемые структурой Википедии: (i) в графе категорий есть циклы; (ii) стоит задача выбора корневой категории.
Метрика Для английского языка такой набор есть -это 353 пары слов, в оценке которых участвовало два десятка людей. Табл. 3 показывает, что уже более десяти метрик и алгоритмов можно сравнить с помощью этих данных. Именно этот набор использовался и для оценки работы программы Synarcher, реализующей адаптированный HITS алгоритм, в английской и английской простой Википедиях.
Было бы интересно оценить работу алгоритмов в русской Википедии. Предлагаю проставить оценки в тестовом наборе из русских слов и приглашаю на страницу проекта 29 .
Работа выполнена при финансовой поддержке РФФИ (проекты № 05-01-00151 и 06-07-89242), Президиума РАН (проект № 2.35) и ОИ
This content is AI-processed based on open access ArXiv data.