Методика оценки результатов

РефератПомощь в написанииУзнать стоимостьмоей работы

В то же время, если рассчитывать точность и полноту на основании «наложения» («overlap»), то предпочтение неминуемо будет отдаваться более длинным фрагментам — вплоть до фрагментов, содержащих целые предложения, если эталон содержит любой фрагмент этого предложения. Для оценки результатов тестирования хочется использовать схему, основанную на пересечении (в отличии от «наложения»), предложенную… Читать ещё >

Методика оценки результатов (реферат, курсовая, диплом, контрольная)

Оценка систем выделения сущностей является стандартным индикатором прогресса данной области, и может служить проверкой работоспособности новых методов. По общему правилу оценка систем проводится на корпусах, размеченных вручную (создается так называемый «эталон» разметки — «goldstandard»). Методики измерения основных показателей, однако, отличаются от работы к работе.

В ходе серии конференций CoNLL был предложен следующий интуитивно понятный способ оценки: именованная сущность считается выделенной системой правильно, если и ее тип, и границы, отмеченные системой, совпадают с типом и границами, размеченными аннотаторами в корпусе; в противном случаеможно считать, что сущность выделена неправильно. Назовем такой способ оценки оценкой методом точного соответствия. Точность (??), полнота (??) и ??-мера в данном случае определяются следующим образом:

??=количество во верно выделенных сущностей/кол-во всех выделенных сущностей,
?? = количество во верно выделенных сущностей/ кол-во сущностей в корпусе,
?? =2???/ (?? + ??).

Данный метод оценки широко распространен, однако подвергается критике. Оценка точным соответствием не позволяет снисходительно относится к ошибкам в границе сущности или в ее классе, которые вполне могут быть совершены и людьми при разметке текста. Кристофер Маннинг предложил способ подсчета сегментов, который бы учитывал 3 дополнительных типа ошибки: сущность выделена, но есть неточность в границе, есть ошибка в классе сущности, но граница верна, ошибка есть как в классе, так и в границе сущности. Однако, предложенный способ не нашел широкого распространения.

Наравне с вышеназванным существуют и другие способы оценки, применявшиеся в разное время и для подсчета результатов на различном материале.

Основные недостатки стандартных способов расчета точности и полноты:

— Если считать правильно выделенными только фрагменты, которые точно совпадают с границами фрагментов-эталонов, скорее всего, результаты будут слишком низкими и не будут отражать потенциал системы. Кроме того, экперты-аннотаторы также расходятся в оценке границ многословных сущностей.
— В то же время, если рассчитывать точность и полноту на основании «наложения» («overlap») [Choietal., 2006: 64; Brecketal., 2007: 65], то предпочтение неминуемо будет отдаваться более длинным фрагментам — вплоть до фрагментов, содержащих целые предложения, если эталон содержит любой фрагмент этого предложения.

Предлагаемая система позволяет избежать этих крайностей. Крайние значения метрик в данном случае будут ограничены снизу оценкой точного совпадения, а сверху — оценкой «наложения».

Для оценки результатов тестирования хочется использовать схему, основанную на пересечении (в отличии от «наложения»), предложенную Йохансоном и Москитти [Johansson, Moschitti, 2013: 48] при решении задачи оценки тональности.

Как в случае оригинальной статьи, так и в нашей задачевыделения именованных сущностей, часто границы выражений, представляющих сущности, не являются четко определенными.

Идея состоит в том, чтобы приписать значения от 0 до 1 каждому сегменту в отличие от традиционного подхода, при котором каждый сегмент может считаться либо верно, либо неверно выделенным. Покрытие © фрагмента (s) (множество токенов) определяется по отношению к другому фрагменту s?, что указывает, насколько хорошо фрагментs? «покрыт» фрагментом s:

Где |s|- длина фрагментаs, а перечесение s? s' представляет множество токенов, которые являются общими для обоих фрагментов. Так как и в оригинальном исследовании, и в нашем случае существует не один, а несколько теговдля фрагментов, то c (s, s?) считается равным нулю, если теги sиs? различны. Используя покрытие фрагмента, мы определяем покрытие набора фрагментов, s1, s2,…snпо отношению к s'.

Таким образом, точность и полнота, определяются как пересечение, выделенных фрагментов Sпо отношению к фрагментам-эталонам S:

Где |S |- число фрагментов в множествеS.

Например, в тексте «Сергею лазареву в новом клипе сердце и лицо разбила красотка-боксерша» был выделен сегмент «Сергею» с пометой «PER» (Персона), в то время как в аннотированном корпусе помета «PER» присвоена словосочетанию «Сергею лазареву». В этом случае мы предварительно расчитываем коэффициент покрытия, равный в этом случае 0,5 и, с одной стороны, учитываем данную сущность как правильно выделенную при подсчете результатов, а с другой стороны, можем видеть и учесть при подсчёте, что она не является идеально выделенной.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Почему же так много определений, и все они разные?

Еще одна причина неоднозначности термина заключается в том, что на базе IoT решаются разные классы задач. В частности, Кайван Карими говорит о наличии, как минимум, двух классов задач, которые объединяет термин IoT. Первая задача — это удаленный мониторинг и управление набором взаимосвязанных сетевых устройств, каждое из которых может взаимодействовать с объектами инфраструктуры и физической…

Реферат