Выделение ключевых слов
Статистики, принимающие неограниченные значения нормируются стандартным преобразованием. Стандартный критерий Хи-квадрат показал результат, близкий к тривиальной метрике z. Рисунок 4. Меню второго модуля программы. Опции позволяют регулировать длину списка. Сортируя слова, получим два списка ключевых слов, отвечающих каждой группе. Статистики корреляции Мы будем использовать следующие статистики. Читать ещё >
Выделение ключевых слов (реферат, курсовая, диплом, контрольная)
После кластеризации документов, произведенной в предыдущем разделе, мы хотим извлечь слова, которые характерны для первого класса, и, в то же время, не характерны для второго. Согласно гипотезе, это и будут ключевые слова. В качестве входных данных используются файлы, полученные на предыдущем этапе.
Метод выделения ключевых слов Здесь мы снова возвращаемся к модели таблицы сопряженности. Нам нужно оценить, в какой степени данное слово тяготеет к одному или другому документу. Обозначим:
— частота встречаемости слова в первом документе;
— частота встречаемости слова во втором документе;
— общая частота остальных слов в первом документе;
— общая частота остальных слов во втором документе;
и воспользуемся одним из критериев корреляции в таблице сопряженности, которые мы описали выше.
Сортируя слова, получим два списка ключевых слов, отвечающих каждой группе.
Статистики корреляции Мы будем использовать следующие статистики:
- · Быстрый критерий z;
- · Коллигация Юла
- · G-критерий Вулфа
- · Взаимная информация
- · Ассоциация
- · Точный критерий Фишера
- · Хи-квадрат
Статистики, принимающие неограниченные значения нормируются стандартным преобразованием .
Выходные данные На выходе строятся два файла, отвечающие каждому кластеру. В каждом файле ранжированный по данной метрике список ключевых слов. Через табуляцию для каждого слова выводится его частота в первом кластере, во втором кластере и значение метрики.
Рисунок 4. Меню второго модуля программы. Опции позволяют регулировать длину списка.
Результаты.
Быстрый критерий Z
Одна из простейших метрик показала достаточно неплохие результаты. Она не очень чувствительна к общим словам (в топ-10 попало слово как), но в целом ранжирование можно назвать удовлетворительным.
Таблица 3. Топ-10 ключевых слов для быстрого критерия Z.
Life words. | L. | N. | Вес. | News words. | L. | N. | Вес. | |
мужчина_NOUN. | 0.889. | россия_NOUN. | 0.927. | |||||
life_LATN. | 0.881. | украина_NOUN. | 0.926. | |||||
женщина_NOUN. | 0.879. | президент_NOUN. | 0.916. | |||||
фильм_NOUN. | 0.869. | российский_ADJF. | 0.914. | |||||
девушка_NOUN. | 0.855. | сирия_NOUN. | 0.911. | |||||
учёный_NOUN. | 0.849. | сша_NOUN. | 0.906. | |||||
ранее_ADVB. | 0.848. | страна_NOUN. | 0.903. | |||||
как_CONJ. | 0.848. | крым_NOUN. | 0.899. | |||||
ruposters_LATN. | 0.847. | глава_NOUN. | 0.896. | |||||
картина_NOUN. | 0.845. | савченко_Surn. | 0.893. | |||||
Коллигация Юла, взаимная информация, ассоциация
Эти три метрики словам, встретившимся лишь в одном классе, дают максимальный вес, поэтому слово ячменный будет всегда выше слова Россия.
Таблица 4. Топ-10 ключевых слов для неудачных критериев.
Life words | L. | N. | Вес. | News words. | L. | N. | Вес. | |
a_LATN. | 1.0. | ячменный_ADJF. | 1.0. | |||||
персональный_ADJF. | 1.0. | вооружение_NOUN. | 1.0. | |||||
петербургский_ADJF. | 1.0. | катастрофа_NOUN. | 1.0. | |||||
печень_NOUN. | 1.0. | понижать_INFN. | 1.0. | |||||
жаркое_NOUN. | 1.0. | касьянов_Surn. | 1.0. | |||||
жанр_NOUN. | 1.0. | кастро_Surn. | 1.0. | |||||
пик_NOUN. | 1.0. | пономарев_Surn. | 1.0. | |||||
пикантный_ADJF. | 1.0. | понятный_ADJF. | 1.0. | |||||
пиксель_NOUN. | 1.0. | вооружённый_ADJF. | 1.0. | |||||
пингвин_NOUN. | 1.0. | пообещать_INFN. | 1.0. | |||||
G-критерий Вулфа
Данный критерий показал наиболее хороший результат. G-критерий с одной стороны не очень чувствителен к частотным общим словам, с другой — к редким словам, встретившимся в одном классе текстов. На наш взгляд ранжирование в целом отвечает интуитивному представлению о ключевых словах.
Таблица 5. Топ-10 ключевых слов для G-критерия Вулва.
Life words | L. | N. | Вес. | News words. | L. | N. | Вес. | |
мужчина_NOUN. | 0.988. | украина_NOUN. | 0.995. | |||||
life_LATN. | 0.986. | россия_NOUN. | 0.994. | |||||
женщина_NOUN. | 0.984. | президент_NOUN. | 0.993. | |||||
фильм_NOUN. | 0.982. | сирия_NOUN. | 0.992. | |||||
девушка_NOUN. | 0.976. | российский_ADJF. | 0.992. | |||||
учёный_NOUN. | 0.975. | сша_NOUN. | 0.990. | |||||
картина_NOUN. | 0.974. | крым_NOUN. | 0.990. | |||||
специалист_NOUN. | 0.973. | страна_NOUN. | 0.989. | |||||
ruposters_LATN. | 0.972. | савченко_Surn. | 0.989. | |||||
животный_ADJF. | 0.972. | глава_NOUN. | 0.988. | |||||
Точный критерий Фишера
Точный критерий Фишера в данной задаче показывает вполне удовлетворительный результат, однако его ранжирование отличается от g-критерия. Он так же чувствителен к перекосам.
Таблица 6. Топ-10 ключевых слов для точного критерия Фишера.
Life words | L. | N. | Вес. | News words. | L. | N. | Вес. | |
life_LATN. | 1.0. | украинский_ADJF. | 1.0. | |||||
мужчина_NOUN. | 1.0. | крым_NOUN. | 1.0. | |||||
женщина_NOUN. | 1.0. | ес_NOUN. | 1.0. | |||||
фильм_NOUN. | 0.999. | президент_NOUN. | 1.0. | |||||
девушка_NOUN. | 0.999. | трамп_NOUN. | 1.0. | |||||
картина_NOUN. | 0.999. | военный_NOUN. | 1.0. | |||||
учёный_NOUN. | 0.999. | украина_NOUN. | 1.0. | |||||
ruposters_LATN. | 0.999. | сирия_NOUN. | 1.0. | |||||
ранее_ADVB. | 0.999. | страна_NOUN. | 1.0. | |||||
как_CONJ. | 0.999. | российский_ADJF. | 1.0. | |||||
Хи-квадрат
Стандартный критерий Хи-квадрат показал результат, близкий к тривиальной метрике z.
Таблица 7. Топ-10 ключевых слов для критерия хи-квадрат.
Life words | L. | N. | Вес. | News words. | L. | N. | Вес. | |
мужчина_NOUN. | 0.984. | россия_NOUN. | 0.993. | |||||
life_LATN. | 0.981. | украина_NOUN. | 0.993. | |||||
женщина_NOUN. | 0.981. | президент_NOUN. | 0.991. | |||||
фильм_NOUN. | 0.977. | российский_ADJF. | 0.991. | |||||
девушка_NOUN. | 0.971. | сирия_NOUN. | 0.990. | |||||
как_CONJ. | 0.968. | сша_NOUN. | 0.989. | |||||
учёный_NOUN. | 0.968. | страна_NOUN. | 0.988. | |||||
ранее_ADVB. | 0.968. | крым_NOUN. | 0.987. | |||||
ruposters_LATN. | 0.967. | глава_NOUN. | 0.986. | |||||
картина_NOUN. | 0.965. | савченко_Surn. | 0.985. | |||||
При работе с большими корпусами имеет смысл хранить только верхушку корпуса. Наш модуль позволяет обрезать списки ключевых слов автоматически, исходя из распределения или задавая параметры вручную, построив гистограмму.
Рисунок 5. Гистограмма распределения весов ключевых слов для критерия Вулва. Вверху несерьезные, внизу серьезные документы. Наиболее удачные слова имеют вес, больший 0.7.