Построение уравнения множественной регрессии
Столбец t-статистика содержит наблюдаемые значения t-критерия Стьюдента. Столбец «P-значение» используется для проверки гипотезы (о незначимости i-го коэффициента регрессии) с помощью критерия Стьюдента. Столбец содержит вероятности того, что в силу случайных причин принимает это или большее значение, хотя коэффициент регрессии bi =0. «P-значение» сравнивается с выбранным уровнем значимости б… Читать ещё >
Построение уравнения множественной регрессии (реферат, курсовая, диплом, контрольная)
Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Национальный минерально-сырьевой университет «Горный»
Кафедра информатики и компьютерных технологий
Расчетно-графическое задание
Вариант 7
По дисциплине: Эконометрика
Тема: «построение уравнения множественной регрессии»
Выполнил: студент гр. ЭГ-13−2 _________ /Чакир А.Ю./
Проверил: доцент ____________ / Беляев В.В./
Санкт-Петербург
ЦЕЛЬ РАБОТЫ: закрепить и углубить знания, полученные при изучении курса, в области построения моделей множественной регрессии.
ЗАДАНИЕ: изучить влияние факторов, определяющих цену строящегося жилья в Санкт-Петербурге.
ИСХОДНЫЕ ДАННЫЕ
Общая площадь квартиры, кв. м | Жилая площадь квартиры, кв. м | Площадь кухни, кв. м | Наличие балкона | Срок до окончания строительства, мес | Цена квартиры, тыс.долл. | |
x1 | x2 | x3 | x4 | x5 | y1 | |
34,53 | 10,7 | 13,60 | ||||
37,46 | 17,8 | 8,3 | 15,57 | |||
38,55 | 8,5 | 15,84 | ||||
36,83 | 17,8 | 8,3 | 16,06 | |||
39,20 | 8,2 | 16,12 | ||||
39,76 | 8,3 | 16,16 | ||||
68,33 | 35,5 | 36,92 | ||||
75,46 | 41,4 | 12,1 | 37,98 | |||
79,80 | 45,6 | 38,65 | ||||
91,26 | 55,2 | 9,4 | 41,09 | |||
76,76 | 44,7 | 41,22 | ||||
91,62 | 53,8 | 41,64 | ||||
84,01 | 48,5 | 12,1 | 41,81 | |||
82,18 | 49,7 | 13,8 | 42,94 | |||
76,74 | 44,7 | 43,31 | ||||
85,74 | 48,7 | 44,32 | ||||
93,11 | 49,5 | 46,59 | ||||
98,06 | 65,8 | 50,64 | ||||
88,63 | 52,3 | 11,5 | 51,15 | |||
138,11 | 67,2 | 14,6 | 52,08 | |||
97,91 | 52,3 | 15,3 | 52,22 | |||
98,14 | 54,66 | |||||
117,32 | 55,2 | 57,93 | ||||
131,99 | 69,6 | 75,76 | ||||
Рис. 1 Фрагмент таблицы исходных данных
ТРЕБУЕТСЯ
1. Определить факторы, формирующие цену квартир в строящихся домах в Санкт-Петербурге.
2. Построить уравнение регрессии, характеризующее зависимость цены от всех факторов в линейной форме. Оценить адекватность полученной модели. Составить матрицу парных коэффициентов корреляции исходных переменных и проанализировать ее.
3. Построить модельв линейной форме методом включения. Определить, какие факторы значимо воздействуют на формирование цены квартиры в этой модели.
4. Построить графики остатков, выполнить визуальный анализ. Провести тестирование ошибок (остатков) уравнения множественной регрессии на гетероскедастичность, применив тест Гельфельда-Квандта.
5. Оценить автокорреляцию остатков с помощью статистики Дарбина-Уотсона.
6. Написать уравнение множественной регрессии в стандартизованном масштабе, пояснить экономический смысл его параметров.
7. Вычислить средние частные коэффициенты эластичности для факторов, вошедших в модель. Пояснить их экономический смысл.
8. Пользуясь уравнением регрессии вычислить прогнозные значения стоимости объекта недвижимости, если значения значимых факторов равны, где и максимальное и минимальное значения факторов в таблице исходных данных. Вычислить точечный и интервальный прогноз.
ХОД РАБОТЫ матрица корреляция уравнение регрессия Пункт 1
Предположим, что на стоимость строящего в Санкт-Петербурге жилья влияют все перечисленные в таблице факторы, т. е. общая и жилая площадь квартиры, площадь кухни, наличие балкона и число месяцев до окончания срока строительства. Наличие балкона — качественная характеристика, поэтому влияние этой характеристики на стоимость жилья учтем с помощью фиктивной переменной, которая будет принимать значение 0, если балкона нет и 1 — если балкон есть.
Введем следующие переменные:
y — цена квартиры, тыс.долл.
x1 — общая площадь квартиры (кв.м)
x2 — жилая площадь квартиры (кв.м)
x3 — площадь кухни (кв.м)
x4 — наличие балкона (1- есть, 0 — нет)
x5 — число месяцев до окончания срока строительства.
Пункт 2
Пользуясь надстройкой «Анализ данных — Регрессия» построим уравнение регрессии.
Рис. 2 Регрессионная статистика
Получили уравнение
y=1,062+0,513×1−0,04×2+0,08×3+0,514×4−0,426 x5
Очевидно, что полученное уравнение противоречит практике, коэффициент при x2 отрицательный, то есть увеличение жилой площади уменьшает общую стоимость квартиры.
Проанализируем межфакторную корреляцию. Для получения матрицы парных линейных коэффициентов корреляции воспользуемся надстройкой «Анализ данных — Корреляция».
Рис. 3 Корреляционный анализ
Значения коэффициентов линейной парной корреляции высоки; , что говорит о взаимозависимости этих факторов, то есть о мультиколлинеарности.
Полученное уравнение множественной регрессии, включающее весь имеющийся набор факторов, не адекватно. Возможная причина — мультиколлинеарность факторов, квлюченных в модель.
Пункт 3
Построение модели методом включения — это пошаговый отбор переменных.
На 1-м шаге (k=1) по наибольшему значению коэффициента корреляции с y найдем наиболее информативную переменную — это x1.
Так как при k=1 величина R2 совпадает с квадратом обычного (парного) коэффициента корреляции R2 = r2(y, x), из матрицы корреляций находим наибольший коэффициент детерминации для набора однофакторных регрессионных моделей:
Аналогичный результат можно получить последовательно строя уравнения регрессии для зависимостей y-xj с помощью табличной функции ЛИНЕЙН.
Рис. 4 Нахождение информативное переменной с помощью функции ЛИНЕЙН
Таким образом, в классе однофакторных регрессионных моделей наиболее информативным предиктором (предсказателем) является x1 — общая площадь квартиры. Включим эту переменную в выстраиваемую методом включения модель.
Вычислим скорректированный коэффициент детерминации:
=0.8701,
где k-количество факторов.
2-й шаг (k=2). Среди всевозможных пар (х1, хj), j = 2, 3, 4, 5, выбирается наиболее информативная пара:
Последовательно применяем табличную функцию ЛИНЕЙН к различным парам:
(х1, х2) = 0.8684, (х1, х3) = 0.8709,
(х1, х4) = 0.8681, (х1, х5) = 0.9147.
Очевидно, что наиболее информативной парой является (х1, х5), которая дает С включением параметра х5 коэффициент детерминации вырос, следовательно, это правильное решение. Линейное уравнение с учетом факторов х1 и х5 имеет вид :
y (х1, х5) = 1,9787 + 0.4971×1 — 0,4286 х5
Используя надстройку «Регрессия», проведем анализ значимости найденных коэффициентов.
Рис. 5 Фрагмент отчета регрессии по двум переменным
Столбец t-статистика содержит наблюдаемые значения t-критерия Стьюдента. Столбец «P-значение» используется для проверки гипотезы (о незначимости i-го коэффициента регрессии) с помощью критерия Стьюдента. Столбец содержит вероятности того, что в силу случайных причин принимает это или большее значение, хотя коэффициент регрессии bi =0. «P-значение» сравнивается с выбранным уровнем значимости б, если «P-значение» больше или равно б, то гипотеза подтверждается и коэффициент незначим, в противоположном случае коэффициент существенно отличен от 0, т. е. значим. Рассмотрев столбец «P-значение», приходим к выводу: два коэффициента при независимых переменных (х1, х5) отличаются от нуля при уровне значимости = 0.05. Коэффициент «Y-пересечение» (1,9787) не значим, и его следует исключить из уравнения. Таким образом, уравнение фактически имеет вид:
y (х1, х5) = 0.4971×1 — 0,4286 х5
3-й шаг (k = 3). Попытаемся добавить третью переменную в наше уравнение регрессии. Среди всевозможных троек (х1, х5, хj), j = 2, 3, 4, выбираем аналогично наиболее информативную: (х1, х5, х2), которая дает (3) = 0.9139, что меньше, чем (2) = 0.9147.
Рис. 6 Применение функции ЛИНЕЙН для нахождения третьего фактора
Следовательно, третью переменную в модель включать нецелесообразно, т.к. она понижает значение. Этот же результат получим, применив надстройку «Регрессия» Отметим, что коэффициент при x2 не значим при уровне значимости 0,05.
Рис. 7 Фрагмент отчета регрессии по трем переменным
Уравнение
y (х1, х5) = 0.4971×1 — 0,4286 х5
адекватно описывает зависимость стоимости квартиры от влияющих на нее факторов, и может быть использовано для анализа и прогноза. Все коэффициенты при неизвестных в нем значимы.
Пункт 4
Для применения метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичнной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность.
Рассмотрим графики остатков для переменных x1 и x5, полученные при построении уравнения регрессии с помощью надстройки «Анализ данных — Регрессия» (рис.8).
Визуальный анализ остатков (ошибок аппроксимации) по графикам не может однозначно исключить наличие гетероскедастичности.
Рис. 8 Графики остатков
Нарушение гомоскедастичности может быть выявлено с помощью метода (теста) Гельфельда-Квандта. Предварительно все наблюдения упорядочим по одному из факторов, например, по х1.
Для применения теста Гельфельда-Квандта необходимо определить число исключаемых центральных наблюдений С. Из экспериментальных расчетов, проведенных авторами метода, рекомендовано при n=30 принимать C=8, а при n=60, — соответственно, С=16.
В задании при n= 69 было исключено 17 наблюдений (С=17). Тогда в каждой группе будет по 26 наблюдений Рис. 9 Организация данных при использовании теста Гельфельда-Квандта (часть строк скрыта). Строки с 27 по 43 (#nn) исключены из рассмотрения
Для первой группы наблюдений строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S1) для первой группы (рис.10)
S1=119.3297
Рис. 10 Результат работы функции ЛИНЕЙН для первой группы
Для второй группы наблюдений также строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S2) для этой группы (рис.11)
S2=350,8491
Рис. 11 Результат работы функции ЛИНЕЙН для второй группы
F=S2/S1=2,94;
Fкрит=FРАСПОБР (0.05;23;23)=2.01. Fнабл > Fкрит, следовательно, гипотеза о гомоскедастичности остатков отвергается. Значит, имеет место гетероскедастичность.
Для решения данной проблемы введем новую величину z равную стоимости квадратного метра общей площади квартиры.
Для первой группы наблюдений строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S1) для первой группы (рис.12)
S1=0.0698
Рис. 12 Результат работы функции ЛИНЕЙН для первой группы
Для второй группы наблюдений также строим уравнение линейной регрессии с помощью функции ЛИНЕЙН. Определяем остаточную сумму квадратов (S2) для этой группы (рис.13)
S2=0.0374
Рис. 13 Результат работы функции ЛИНЕЙН для второй группы
F=S1/S2=1.87;
Fкрит=FРАСПОБР (0.05;23;23)=2.01. Fнабл < Fкрит, следовательно, гипотеза о гомоскедастичности остатков подтверждается.
Так как ошибки аппроксимации гомоскедастичны, применение МНК по данному условию корректно.
Пункт 5
Для применения МНК требуется, чтобы значения остатков были распределены независимо друг от друга. Если это не так, то говорят, что остатки автокоррелированы.
Тестом на простейшую автокорреляцию ошибок (первого порядка) является тест Дарбина-Уотсона (Durbin-Watson).
Рис. 14 Организация данных для вычисления статистики Дарбина-Уотсона в Excel (часть строк скрыта)
Вычислим значение статистики d по формуле:
По таблице для n = 26 и p=3 находим критические значения DU=1.67 и DL=1.55. Поскольку, остатки не коррелированы.
Так как значения остатков были распределены независимо друг от друга, применение МНК по данному условию корректно.
Рис. 15 Распределение остатков
Пункт 6
Выведем уравнение множественной регрессии в стандартизованном масштабе. Определим стандартизованные переменные:
Рис. 16 Отчет «Описательная статистика»
Для определения коэффициентов стандартизованного уравнения множественной регрессии можно использовать МНК или воспользоваться связью стандартизованных коэффициентов с полученными ранее коэффициентами множественной регрессии
Таким образом, уравнение множественной регрессии в стандартизованном масштабе имеет вид:
В силу того, что стандартизованные переменные центрированные и нормированы, стандартизованные коэффициенты можно сравнивать между собой, т. е. сравнивать факторы по силе воздействия. В нашем случае влияние первого фактора на результат более чем в четыре раза (0.95/0.21> 4) превышает влияние пятого фактора.
Пункт 7
Рассчитаем средние частные коэффициенты эластичности, воспользовавшись результатами работы надстройки «Описательная статистика».
При изменении фактора х1 на один процент результат возрастет на 1.02%, при неизменных прочих параметрах. Аналогично, при изменении фактора х5 на один процент значение результирующего фактора уменьшится на 0.08%, при неизменных прочих параметрах.
Пункт 8
По формуле найдем точки, в которых необходимо построить прогноз.
Вычислим точечный прогноз путем подстановки найденных значений в уравнение:
y (х1, х5) = 0.4971*117,39 — 0,4286 *19,2=50,129
Для получения интервальной оценки необходимо воспользоваться формулой:
где-стандартная ошибка групповой средней
— вектор значений факторов, определяющий точку, в которой строим прогноз;
— матрица, по которой было построено уравнение.
— стандартное отклонение остаточной дисперсии или стандартная ошибка уравнения регрессии.
Рис. 17 Результаты прогнозирования
Интервальной оценкой является доверительный интервал с надежностью 95% [47,38; 52,87] тыс.долл.
Выводы
· Уравнение y (х1, х5) = 0.4971×1 — 0,4286×5 адекватно описывает зависимость стоимости квартиры от влияющих на нее факторов и может быть использовано для анализа и прогноза. Все коэффициенты в нем значимы.
· Увеличение общей площади квартиры на 1 м² приводит к увеличению стоимости квартиры на величину в среднем на 497 $, отдаление срока сдачи на 1 месяц снижает стоимость квартиры на 428,6 $. Влияние прочих факторов несущественно
· Влияние общей площади квартиры на ее стоимость более чем в четыре раза превышает влияние срока сдачи объекта на стоимость
· При изменении цены общей площади квартиры на 1% стоимость квартиры возрастет на 1.02%, при неизменных прочих параметрах. Аналогично, при изменении срока сдачи квартиры на один процент стоимость квартиры упадет на 0.08%, при неизменных прочих параметрах.
· Проверка корректности применения МНК показала, что ошибки аппроксимации (значения остатков) гомоскедастичны и распределены независимо друг от друга.
· Стоимость квартиры площадью 117,39 кв. м со сроком сдачи через 19.2 мес с вероятностью 95% будет лежать в пределах [47,38; 52,87] тыс.долл.