Метод выявления синонимических рядов, соответствующих одинаковым понятиям, и его оценка
Из тезауруса YARN были получены все синсеты Исходные данные доступны по адресу http://russianword.net/yarn-synsets.csv. и оставлены те из них, для которых есть эквивалентные. Согласно нашим расчётам, в YARN (по состоянию на 10 июля 2015 г.) содержалось 44 тыс. синсетов, связывающих 54 тыс. слов. Из них почти 28 тыс. пар эквивалентных синсетов, среди которых 15,7 тыс. различных синсетов. Таким… Читать ещё >
Метод выявления синонимических рядов, соответствующих одинаковым понятиям, и его оценка (реферат, курсовая, диплом, контрольная)
Авторы первого ЭТ Princeton Wordnet [10], анализируя подходы к определению слов, отмечают, что в большинстве случаев для идентификации слова достаточно одного его синонима [2], то есть пара синонимов задаёт смысл. Это наблюдение широко используется в толковых словарях, где в качестве определений часто приводится ровно один синоним.
Следуя данному утверждению, сформулируем критерий эквивалентности синсетов: если синсеты содержат хотя бы два одинаковых слова, то они разделяют общий смысл, т. е. являются эквивалентными. Этот критерий использовался в работе [5] для определения доли общих смыслов, представленных в различных лексических ресурсах, таких как ЭТ и словари синонимов. Однако верификация данного критерия не была проведена.
Отметим, что данный критерий имеет практическую значимость, так как его применение может выявлять сходные синсеты в ресурсах. Это может помочь в удалении идентичных концепций, представленных различных образом и повысить полноту отображения соответствующих концепций за счёт слияния действительно сходных синсетов в один.
В этой связи задача проверки верности данного критерия является актуальной и осуществляется в статье далее. Для оценки точности критерия сходства синсетов был проведён следующий эксперимент.
Из тезауруса YARN были получены все синсеты Исходные данные доступны по адресу http://russianword.net/yarn-synsets.csv. и оставлены те из них, для которых есть эквивалентные. Согласно нашим расчётам, в YARN (по состоянию на 10 июля 2015 г.) содержалось 44 тыс. синсетов, связывающих 54 тыс. слов. Из них почти 28 тыс. пар эквивалентных синсетов, среди которых 15,7 тыс. различных синсетов. Таким образом, YARN содержит до 35% синсетов с одинаковым смыслом.
Случайным образом было выбрано 100 пар эквивалентных синсетов s и se, таких что:
s?S, se?Se, |s| < |se|,.
где || обозначает мощность множества и соответствует количеству слов в синсете. Затем из большего синсета se каждой пары выбирались слова words, отсутствующие в меньшем s. Согласно критерию эквивалентности синсетов, эти слова являются кандидатами на включение в меньший синсет. Все отобранные синсеты содержали 3−7 слов включительно (нижняя граница гарантировала, что синсет формировался не «случайно», и он определяет некоторую концепцию; верхняя граница отфильтровывала в достаточной степени полные синсеты).
Затем был проведён опрос, в котором участникам (из числа носителей русского языка) предлагалось выбрать слова из words, добавление которых в синсет s не искажает смысл. Очевидно, что если участник выбирал какие-то слова, это означало, что синсеты действительно имеют общий смысл. Из-за того, что участники опроса не являлись экспертами, мы собрали 3 оценки для каждого синсета, т. е. всего было получено 300 оценок. Считалось, что слово необходимо добавить в синсет, если его выбрало более одного человека.
Хотя бы одно слово было добавлено в 73 синсета, при этом всего было добавлено 159 слов. Это говорит о том, что каждый синсет, который был пополнен, увеличился в среднем более, чем на 2 слова (159 / 73? 2,2). Это свидетельствует о том, что в 73 случаях из 100 синсеты, которые мы считаем эквивалентными, действительно описывают одинаковые понятия. В таких случаях синсет, из которого выбирались слова на добавление, может быть удалён из ресурса, как дубликат модифицированного синсета.