Бакалавр
Дипломные и курсовые на заказ

SemSin. 
Сравнительный анализ организации систем синтаксических парсеров

РефератПомощь в написанииУзнать стоимостьмоей работы

SemSin — это семантико-синтаксический анализатор, в задачи которого входит снятие частеречной и морфологической омонимии, построение синтаксического дерева зависимостей и частичное снятие лексической неоднозначности. Система создана небольшим коллективом в «достаточно сжатые» сроки. База фразеологизмов обеспечивает разбор трех типов словосочетаний: неизменяемых (несмотря ни на что, вдалеке от… Читать ещё >

SemSin. Сравнительный анализ организации систем синтаксических парсеров (реферат, курсовая, диплом, контрольная)

SemSin [6] - это семантико-синтаксический анализатор, в задачи которого входит снятие частеречной и морфологической омонимии, построение синтаксического дерева зависимостей и частичное снятие лексической неоднозначности. Система создана небольшим коллективом в «достаточно сжатые» сроки.

Использует следующие лингвистические ресурсы.

  • 1. Словарь и классификатор В. А. Тузова, созданный на основе морфологического словаря А. А. Зализняка. При определении семантики использовался словарь С. А. Кузнецова. В нём каждая лексема содержит морфологические характеристики, а также номер своего класса и модели управления слов (актанты вызываемых ею лексем в виде падежей или предлогов с соответствующими падежами). Словарь содержит общеупотребительные слова, названия и имена собственные.
  • 2. База фразеологизмов обеспечивает разбор трех типов словосочетаний: неизменяемых (несмотря ни на что, вдалеке от), с изменяемым первым словом (гвоздь программы) и полностью изменяемых (белая ворона).
  • 3. База предлогов, хранящая классы существительных, с которыми они взаимодействуют, и названия связей с хозяевами предложных групп («хозяин» — главное слово в синтаксической группе).
  • 4. База продукционных правил (около 210).

В процессе анализа предложения система сегментирует его, устанавливает главное слово сегмента («центр сегмента»), может объединять сегменты, подчинять их. Исходное предложение разбивается по знакам пунктуации на отдельные сегменты. Каждому сегменту при этом присваивается свой тип, исходя из наличия/отсутствия подчинительного союза или глагольной формы. После завершения работы сегментации проводится построение именных и предложных групп внутри сегментов Таким образом в первой фазе синтаксического анализа определяется топологическая структура предложения (выделение глагольных групп и сегментов), во второй фазе происходит выделение фразовых категорий в пределах, определенных границами сегментов. Следовательно, в первой фазе анализ предложения проводится «сверху вниз», во второй — «снизу вверх», но на фрагментах меньше длины предложения. Следует отметить, что идея необходимости разделения сегментационного и непосредственно синтаксического (в смысле установление связей между отдельными словами) анализа — параллельное построение сверху и снизу структуры предложения — существовала в московской прикладной лингвистике еще в 1970;ые годы. Такая стратегия позволяет значительно снизить объем необходимых для ее реализации вычислений.

В описание процессора не включена информация о построении или разрешении синтаксической омонимии на уровне сегментов, то есть возможность рассмотрения структурных вариантов сегментации предложения с разными границами сегментов. Нет также упоминания о сочинении предикатов — важной составляющей анализа для правильного определения границ сегментов. Следует также отметить, что время анализа линейно зависит от длины предложения.

Показать весь текст
Заполнить форму текущей работой