IT-method.
Обзор современного состояния области компьютерного зрения
Внимание определяется исключительно как выбор области в пространстве (без непрямого выделения, основанного на признаках, или только с ним); Три карты заметности (полученные на предыдущем шаге) нормализуются и суммируются на финальном выходе в карту внимания (салиентности): Первый уровень (visual preprocessing, предварительная визуальная обработка) модели представлен следующим образом (см. рисунок… Читать ещё >
IT-method. Обзор современного состояния области компьютерного зрения (реферат, курсовая, диплом, контрольная)
Проиллюстрируем построение карты салиентности (карты внимания) на основе модели (рисунок 23), впервые предложенной в 1998 году L. Itti и C. Koch (IT-method). На данном примере можно рассмотреть основные принципы создания карт, используемую в указанной области терминологию и эффективность.
Рисунок 23 — A model of Saliency-Based Visual Attention.
for Rapid Scene Analysis [17, 18].
Первый уровень (visual preprocessing, предварительная визуальная обработка) модели представлен следующим образом (см. рисунок 24) [18]:
Рисунок 24 — Visual Preprocessing [18].
Intensity image (карта интенсивности) получается из значений цвета (RGB) как:
где — цветовые компоненты входного изображения.
Для каждого пикселя в пирамиде генерируется цветовой канал:
Наравне с «традиционными» (RGB) каналами генерируется «жёлтый»:
Негативные значения приравниваются к нулю.
Определим цветовую оппозицию как:
The detection of local orientation at each point in the image is achieved using overcomplete steerable filters O [18].
Следующий уровень модели [18] представлен как показано на рисунке 25:
Рис 25 — Center-surround differences [18]
Вычислим различия между «центром» и «окружением» (center-surround difference), чтобы определить контраст, следующим образом. Возьмем разницу между точной шкалой (fine scale), принимаемой за «центр» (center), и грубой шкалой (coarse scale), принимаемой за «окружение» (surround), для указанного признака (feature). Эта операция проводится путем применения интерполяции к точной шкале и последующим вычитанием точка-за-точкой (point by point subtraction) [18]:
где.
Нормализация () на этом уровне будет иметь вид, показанный на рисунке 26. Карта интенсивности и карта ориентации, выраженные в произвольных единицах (arbitrary units) после нормализации будут иметь вид как в правой части рисунка.
Рисунок 26 — Normalization [18].
На этом этапе [18]:
1. Нормализуются значения в карте в фиксированном диапазоне в целях устранения модально-зависимых разниц в амплитудах (modality-dependent amplitude differences);
2. Находится местоположение глобального максимума карты (map's global maximum) и вычисляем среднее значение для всех прочих локальных максимумов (other local maxima);
3. Вся карта умножается на .
Следующий уровень [18] выглядит как показано на рисунке 27:
Conspicuity maps (карты заметности) строятся следующим образом [18]:
Т.е. карты признаков комбинируются в три карты заметности в масштабе 4 (at the scale 4). This is obtained through across-scale addition by reducing each map to the lowest resolution (scale 4) and point-by-point addition [18].
В конце схемы мы имеем следующий вид (рисунок 28):
Рисунок 28 — Saliency map model end [18].
Три карты заметности (полученные на предыдущем шаге) нормализуются и суммируются на финальном выходе в карту внимания (салиентности) [18]:
Иллюстрация работы модели приведена на рисунке 29.
Входное изображение приходит полноцветным в разрешении 512×384. Карты заметности (контраст интенсивности, контраст цвета, контраст ориентации) получаются в масштабе 4 (32×24), как и итоговая одиночная карта внимания. На выходе нейронный алгоритм (neural winner-take-all network Winner-take-all algorithm — принцип «Победитель получает всё». Применяется в искусственных нейросятях при осуществлении принятия решений и задач классификации. Решением считается такая альтернатива, у которой выходное значение соответствующего нейрона является максимальным. Является случаем конкурентного обучения в реккурентных нейросетях. Выходы в сети взаимно запрещают одновременную активизацию нескольких узлов посредством рефлексивных связей. После некоторого времени только один узел в слое будет активным, а именно тот, который соответствует самому сильному выходы. В ряде практических случаев принцип формируется как «k победителей получают всё».) успешно выделяет, в порядке убывающей салиентности, присутствующие локации [17].
Рисунок 29 — Example of the working model [17].
Касательно предложенной модели можно выделить следующие моменты [18]:
- · Модель салиентности предоставляет полезный алгоритм сопровождения зрения в потенциально значимые части сцены;
- · Она выбирает только точку в пространстве, которая сопоставляется объекту или региону. Выделение региона должно быть добавлено отдельным механизмом;
- · Салиентность ограничена простыми чертами;
- · Внимание определяется исключительно как выбор области в пространстве (без непрямого выделения, основанного на признаках, или только с ним);
- · Преимущество этого механизма для распознавания объектов ограничено, так как выделение области в пространстве не обязательно содействует распознаванию (и даже обнаружению) объектов.