Анализ двух признаков на одном и том же наборе объектов может представлять интерес тогда, когда признаки связаны, т. е. изменяются более или менее одновременно. Такая связь — если она в самом деле наблюдается — может быть использована в различных целях, среди которых обычно различают следующие две основные:
- (i) прогнозирование значений одного признака по значениям другого;
- (и) добавление новой связи к знанию о предметной области через ее интерпретацию в терминах данной области.
Цель (и) как часть так называемого дедуктивного подхода возникает при разработке баз знаний; в них каждое отношение задается логическими предикатами и рассматривается с точки зрения формальной логики — этот подход в данном учебнике не рассматривается. Мы занимаемся другим подходом — индуктивным, который связан с анализом того, какая информация может быть извлечена из данных с учетом задач (i) и (и). Признак, значение которого предсказывается, принято называть целевым, выходным или прогнозируемым, а второй признак — входным или предиктором. Примеры задач типа (i): прогнозирование компьютерных атак определенного типа или числа школ в малом городе с известным числом жителей. Кто-то может спросить, зачем собственно волноваться: ведь все значения признаков уже находятся в файле! Дело в том, что в задаче прогноза имеющиеся данные — всего лишь выборка из большой популяции, используемая как полигон для формирования решающего правила для прогнозирования целевых признаков на других, не попавших в данное множество, объектах. Обычно входной признак на этих других объектах известен или легко измеряем, в то время как целевой — нет. Что касается задачи (й), то данные представляют собой простые эмпирические факты, не обязательно достойные внимания, до тех пор, пока они не обобщены в виде правил для принятия решений.
Математическая структура и визуализация контекста анализа связи между признаками зависят от шкал измерения признаков. Естественно рассматривать следующие случаи:
- (1) оба признака количественные;
- (2) один признак категоризованный, другой количественный;
- (3) оба признака категоризованные.
Рассмотрим эти случаи последовательно.