Методика оценки результатов
В то же время, если рассчитывать точность и полноту на основании «наложения» («overlap»), то предпочтение неминуемо будет отдаваться более длинным фрагментам — вплоть до фрагментов, содержащих целые предложения, если эталон содержит любой фрагмент этого предложения. Для оценки результатов тестирования хочется использовать схему, основанную на пересечении (в отличии от «наложения»), предложенную… Читать ещё >
Методика оценки результатов (реферат, курсовая, диплом, контрольная)
Оценка систем выделения сущностей является стандартным индикатором прогресса данной области, и может служить проверкой работоспособности новых методов. По общему правилу оценка систем проводится на корпусах, размеченных вручную (создается так называемый «эталон» разметки — «goldstandard»). Методики измерения основных показателей, однако, отличаются от работы к работе.
В ходе серии конференций CoNLL был предложен следующий интуитивно понятный способ оценки: именованная сущность считается выделенной системой правильно, если и ее тип, и границы, отмеченные системой, совпадают с типом и границами, размеченными аннотаторами в корпусе; в противном случаеможно считать, что сущность выделена неправильно. Назовем такой способ оценки оценкой методом точного соответствия. Точность (??), полнота (??) и ??-мера в данном случае определяются следующим образом:
- ??=количество во верно выделенных сущностей/кол-во всех выделенных сущностей,
- ?? = количество во верно выделенных сущностей/ кол-во сущностей в корпусе,
- ?? =2???/ (?? + ??).
Данный метод оценки широко распространен, однако подвергается критике. Оценка точным соответствием не позволяет снисходительно относится к ошибкам в границе сущности или в ее классе, которые вполне могут быть совершены и людьми при разметке текста. Кристофер Маннинг предложил способ подсчета сегментов, который бы учитывал 3 дополнительных типа ошибки: сущность выделена, но есть неточность в границе, есть ошибка в классе сущности, но граница верна, ошибка есть как в классе, так и в границе сущности. Однако, предложенный способ не нашел широкого распространения.
Наравне с вышеназванным существуют и другие способы оценки, применявшиеся в разное время и для подсчета результатов на различном материале.
Основные недостатки стандартных способов расчета точности и полноты:
- — Если считать правильно выделенными только фрагменты, которые точно совпадают с границами фрагментов-эталонов, скорее всего, результаты будут слишком низкими и не будут отражать потенциал системы. Кроме того, экперты-аннотаторы также расходятся в оценке границ многословных сущностей.
- — В то же время, если рассчитывать точность и полноту на основании «наложения» («overlap») [Choietal., 2006: 64; Brecketal., 2007: 65], то предпочтение неминуемо будет отдаваться более длинным фрагментам — вплоть до фрагментов, содержащих целые предложения, если эталон содержит любой фрагмент этого предложения.
Предлагаемая система позволяет избежать этих крайностей. Крайние значения метрик в данном случае будут ограничены снизу оценкой точного совпадения, а сверху — оценкой «наложения».
Для оценки результатов тестирования хочется использовать схему, основанную на пересечении (в отличии от «наложения»), предложенную Йохансоном и Москитти [Johansson, Moschitti, 2013: 48] при решении задачи оценки тональности.
Как в случае оригинальной статьи, так и в нашей задачевыделения именованных сущностей, часто границы выражений, представляющих сущности, не являются четко определенными.
Идея состоит в том, чтобы приписать значения от 0 до 1 каждому сегменту в отличие от традиционного подхода, при котором каждый сегмент может считаться либо верно, либо неверно выделенным. Покрытие © фрагмента (s) (множество токенов) определяется по отношению к другому фрагменту s?, что указывает, насколько хорошо фрагментs? «покрыт» фрагментом s:
Где |s|- длина фрагментаs, а перечесение s? s' представляет множество токенов, которые являются общими для обоих фрагментов. Так как и в оригинальном исследовании, и в нашем случае существует не один, а несколько теговдля фрагментов, то c (s, s?) считается равным нулю, если теги sиs? различны. Используя покрытие фрагмента, мы определяем покрытие набора фрагментов, s1, s2,…snпо отношению к s'.
Таким образом, точность и полнота, определяются как пересечение, выделенных фрагментов Sпо отношению к фрагментам-эталонам S:
Где |S |- число фрагментов в множествеS.
Например, в тексте «Сергею лазареву в новом клипе сердце и лицо разбила красотка-боксерша» был выделен сегмент «Сергею» с пометой «PER» (Персона), в то время как в аннотированном корпусе помета «PER» присвоена словосочетанию «Сергею лазареву». В этом случае мы предварительно расчитываем коэффициент покрытия, равный в этом случае 0,5 и, с одной стороны, учитываем данную сущность как правильно выделенную при подсчете результатов, а с другой стороны, можем видеть и учесть при подсчёте, что она не является идеально выделенной.