Бакалавр
Дипломные и курсовые на заказ

Общие результаты по всем корпусам

РефератПомощь в написанииУзнать стоимостьмоей работы

Наконец, уходя от обсуждения выдвинутых гипотез, обратимся к общей картине запросов в различные корпуса. В описанных выше результатах исследования не раз упоминались пользовательские запросы, заданные не с помощью шаблонов или специального поискового синтаксиса, а в формате конкретной словоформы или словосочетания. В разных корпусах соотношение подобных запросов было разным, однако, в целом… Читать ещё >

Общие результаты по всем корпусам (реферат, курсовая, диплом, контрольная)

Принимая во внимание все выше описанные результаты, можно сделать вывод о том, что обе гипотезы подтверждены, хотя и каждая на своём наборе данных. Возникает главный вопрос, насколько в итоге значимы масштабы полученных данных.

Сперва рассмотрим результаты, подтвердившие гипотезу А, касающуюся пользовательского поведения во время поиска по корпусу. В каждом из корпусов были найдены случаи поисковых сессий, состоящих из значительного количества запросов и содержащих от 4 до 28% повторов. Несмотря на то, что в сравнении с общим числом запросов к корпусам, количество таких повторов становится крайне маленьким (менее 1%), в рамках отдельных сессий поиска, привязанных к одному исследованию, дополнительное кэширование запросов может уменьшить временные затраты поисковой системы. Так, в случаях таких длительных сессий запросы, как правило, строятся по одной структуре, меняя лишь значение одного из свойств или меняя одну лексему на другую, а, значит, каждый запрос обрабатывается одинаковое количество времени. Таким образом, убирая необходимость повторять 15% запросов (среднее количество повторов в рамках одной сессии), мы уменьшаем время общего п…

Далее рассмотрим гипотезу Б о большей частотности некоторых шаблонов в сравнении с другими. Как показали результаты проведённого исследования простые POS-запросы (part of speech, «частеречные») оказались наиболее частотными среди прочих, причём разрыв между запросами «глагол», «существительное» и «прилагательное» и менее распространёнными запросами значителен — первых больше практически в 10 раз и больше. Далее наиболее популярными шаблонами среди глагольных форм и форм существительного являются, соответственно, «глагол прошедшего времени» и «существительное именительного/родительного/винительного падежа». Однако если количество простых шаблонов может быть сравнимо с общим числом запросов к корпусу (каждый из простых шаблонов собрал около 10% запросов), то дополненные шаблоны встречались значительно реже. В связи с этим подвести итоги изучения искомой гипотезы можно следующим образом: для значительного ускорения поиска по корпусу осмысленно строить индекс не только для различных лемм, но и для основных типов запросов (основные части речи + выделенные частотные). При этом если шаблоны основных частей речи точно смогут ускорить процесс поиска, то дополненные шаблоны, скорее, окажут не такой заметный эффект.

Наконец, уходя от обсуждения выдвинутых гипотез, обратимся к общей картине запросов в различные корпуса. В описанных выше результатах исследования не раз упоминались пользовательские запросы, заданные не с помощью шаблонов или специального поискового синтаксиса, а в формате конкретной словоформы или словосочетания. В разных корпусах соотношение подобных запросов было разным, однако, в целом, конкретно сформулированных запросов оказалось больше. Результаты сравнения представлены в таблице ниже.

Таблица 7. Количество запросов из разных корпусов, разделённых по типам.

Корпус.

Количество шаблонных запросов.

Количество «точных» запросов.

Leeds.

3 057.

7 910.

НКРЯ.

373 854.

518 236.

ГИКРЯ.

1 748.

Албанский корпус.

1 363.

Бесермянский корпус.

Бурятский корпус.

Калмыцкий корпус.

1 574.

Осетинский корпус.

Цыганский корпус.

КРЛЯ.

Всего.

380 388.

529 522.

Как можно заметить, «точных» запросов в общей сложности действительно больше, чем шаблонных запросов. Скорее всего, количество запросов, заданных шаблонным способом, связано с тем, как устроен пользовательский интерфейс поисковых систем. Так, корпуса Leeds и КРЛЯ предлагают пользователям использовать специальный синтаксис запросов, представленный в отдельном файле, в то время как НКРЯ, корпуса с платформы webсorpora.net и ГИКРЯ предлагают специальный интерфейс, в котором пользователь может просто выбрать необходимые морфологические характеристики, которые впоследствии будут обработаны системой уже с нужным синтаксисом. Таким образом, получается, что теория, выдвинутая в (Smarr, Grow 2002), о том, что установленный язык запросов более удобен для пользователей, чем специальный интерфейс для указания морфологических свойств слов, оказывается не столь однозначна и может быть опровержима сравнением настоящих логов корпуса.

Что же касается сложности запросов, практика показала, что пользователи склонны задавать запросы с одной морфологической меткой гораздо чаще, чем с несколькими. Так, в НКРЯ запросы, включающие в себя один морфологический шаблон, задали 342 882 раза за всё время, а запросы с двумя и более шаблонами — 30 972 раза. В корпусе Leeds запросы с одним шаблоном задавали 2 648 раз, при наличии всего 203 запросах с двумя и более морфологическими шаблонами.

Все программы, использованные в ходе статистического исследования, были написаны автором проекта на языке программирования Python с использованием различных общедоступных модулей и являются практически универсальными для обработки логов упомянутых корпусов.

Показать весь текст
Заполнить форму текущей работой