Решение задач по эконометрике

Эконометрика – это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. На данный момент в онлайн режиме доступны решения следующих задач по эконометрике:

Корреляционно-регрессионный метод анализа

Непараметрические показатели связи

Гетероскедастичность случайной составляющей

Автокорреляция

Автокорреляция уровней временного ряда . Проверка на автокорреляцию с построением коррелограммы;

Эконометрические методы проведения экспертных исследований

Методом дисперсионного анализа проверить нулевую гипотезу о влиянии фактора на качество объекта.

Полученное решение оформляется в формате Word . Сразу после решения следует ссылка на скачивание шаблона в Excel, что дает возможность проверить все полученные показатели. Если в задании требуется решение в Excel , то можно воспользоваться статистическими функциями в Excel .

Компоненты временных рядов

Сервис Аналитическое выравнивание можно использовать для аналитического сглаживания временного ряда (по прямой) и для нахождения параметров уравнения тренда. Для этого необходимо указать количество исходных данных. Если данных много, их можно вставить из Excel.
Расчет параметров уравнения тренда .
При выборе вида функции тренда можно воспользоваться методом конечных разностей. Если общая тенденция выражается параболой второго порядка, то получим постоянными конечные разности второго порядка. Если примерно постоянными оказываются темпы роста, то для выравнивания применяется показательная функция.
При выборе формы уравнения следует исходить из объема имеющейся информации. Чем больше параметров содержит уравнение, тем больше должно быть наблюдений при одной и той же степени надежности оценивания.
Сглаживание методом скользящей средней . С использованием

Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию . Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.

Модель линейной регрессии

Итак, пусть есть несколько независимых случайных величин X1, X2, ..., Xn (предикторов) и зависящая от них величина Y (предполагается, что все необходимые преобразования предикторов уже сделаны). Более того, мы предполагаем, что зависимость линейная, а ошибки рапределены нормально, то есть

Где I - единичная квадратная матрица размера n x n.

Итак, у нас есть данные, состоящие из k наблюдений величин Y и Xi и мы хотим оценить коэффициенты. Стандартным методом для нахождения оценок коэффициентов является метод наименьших квадратов . И аналитическое решение, которое можно получить, применив этот метод, выглядит так:

где b с крышкой - оценка вектора коэффициентов, y - вектор значений зависимой величины, а X - матрица размера k x n+1 (n - количество предикторов, k - количество наблюдений), у которой первый столбец состоит из единиц, второй - значения первого предиктора, третий - второго и так далее, а строки соответствуют имеющимся наблюдениям.

Функция summary.lm() и оценка получившихся результатов

Теперь рассмотрим пример построения модели линейной регрессии в языке R:
> library(faraway) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) > summary(lm1) Call: lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0.017700 -4.226 0.000297 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 60.98 on 24 degrees of freedom Multiple R-squared: 0.7658, Adjusted R-squared: 0.7171 F-statistic: 15.7 on 5 and 24 DF, p-value: 6.838e-07
Таблица gala содержит некоторые данные о 30 Галапагосских островах. Мы будем рассматривать модель, где Species - количество разных видов растений на острове линейно зависит от нескольких других переменных.

Рассмотрим вывод функции summary.lm().
Сначала идет строка, которая напоминает, как строилась модель.
Затем идет информация о распределении остатков: минимум, первая квартиль, медиана, третья квартиль, максимум. В этом месте было бы полезно не только посмотреть на некоторые квантили остатков, но и проверить их на нормальность, например тестом Шапиро-Уилка.
Далее - самое интересное - информация о коэффициентах. Здесь потребуется немного теории.
Сначала выпишем следующий результат:

при этом сигма в квадрате с крышкой является несмещенной оценкой для реальной сигмы в квадрате. Здесь b - реальный вектор коэффициентов, а эпсилон с крышкой - вектор остатков, если в качестве коэффициентов взять оценки, полученные методом наименьших квадратов. То есть при предположении, что ошибки распределены нормально, вектор коэффициентов тоже будет распределен нормально вокруг реального значения, а его дисперсию можно несмещенно оценить. Это значит, что можно проверять гипотезу на равенство коэффициентов нулю, а следовательно проверять значимость предикторов, то есть действительно ли величина Xi сильно влияет на качество построенной модели.
Для проверки этой гипотезы нам понадобится следующая статистика, имеющая распределение Стьюдента в том случае, если реальное значение коэффициента bi равно 0:

где
- стандартная ошибка оценки коэффициента, а t(k-n-1) - распределение Стьюдента с k-n-1 степенями свободы.

Теперь все готово для продолжения разбора вывода функции summary.lm().
Итак, далее идут оценки коэффициентов, полученные методом наименьших квадратов, их стандартные ошибки, значения t-статистики и p-значения для нее. Обычно p-значение сравнивается с каким-нибудь достаточно малым заранее выбранным порогом, например 0.05 или 0.01. И если значение p-статистики оказывается меньше порога, то гипотеза отвергается, если же больше, ничего конкретного, к сожалению, сказать нельзя. Напомню, что в данном случае, так как распределение Стьюдента симметричное относительно 0, то p-значение будет равно 1-F(|t|)+F(-|t|), где F - функция распределения Стьюдента с k-n-1 степенями свободы. Также, R любезно обозначает звездочками значимые коэффициенты, для которых p-значение достаточно мало. То есть, те коэффициенты, которые с очень малой вероятностью равны 0. В строке Signif. codes как раз содержится расшифровка звездочек: если их три, то p-значение от 0 до 0.001, если две, то оно от 0.001 до 0.01 и так далее. Если никаких значков нет, то р-значение больше 0.1.

В нашем примере можно с большой уверенностью сказать, что предикторы Elevation и Adjacent действительно с большой вероятностью влияют на величину Species, а вот про остальные предикторы ничего определенного сказать нельзя. Обычно, в таких случаях предикторы убирают по одному и смотрят, насколько изменяются другие показатели модели, например BIC или Adjusted R-squared, который будет разобран далее.

Значение Residual standart error соответствует просто оценке сигмы с крышкой, а степени свободы вычисляются как k-n-1.

А теперь самая важные статистики, на которые в первую очередь стоит смотреть: R-squared и Adjusted R-squared:

где Yi - реальные значения Y в каждом наблюдении, Yi с крышкой - значения, предсказанные моделью, Y с чертой - среднее по всем реальным значениям Yi.

Начнем со статистики R-квадрат или, как ее иногда называют, коэффициента детерминации. Она показывает, насколько условная дисперсия модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.

Однако, у статистики R-квадрат есть один серьезный недостаток: при увеличении числа предикторов эта статистика может только возрастать. Поэтому, может показаться, что модель с большим количеством предикторов лучше, чем модель с меньшим, даже если все новые предикторы никак не влияют на зависимую переменную. Тут можно вспомнить про принцип бритвы Оккама . Следуя ему, по возможности, стоит избавляться от лишних предикторов в модели, поскольку она становится более простой и понятной. Для этих целей была придумана статистика скорректированный R-квадрат. Она представляет собой обычный R-квадрат, но со штрафом за большое количество предикторов. Основная идея: если новые независимые переменные дают большой вклад в качество модели, значение этой статистики растет, если нет - то наоборот уменьшается.

Для примера рассмотрим ту же модель, что и раньше, но теперь вместо пяти предикторов оставим два:
> lm2<-lm(Species~Elevation+Adjacent, data=gala) > summary(lm2) Call: lm(formula = Species ~ Elevation + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -103.41 -34.33 -11.43 22.57 203.65 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53e-09 *** Adjacent -0.06889 0.01549 -4.447 0.000134 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 60.86 on 27 degrees of freedom Multiple R-squared: 0.7376, Adjusted R-squared: 0.7181 F-statistic: 37.94 on 2 and 27 DF, p-value: 1.434e-08
Как можно увидеть, значение статистики R-квадрат снизилось, однако значение скорректированного R-квадрат даже немного возросло.

Теперь проверим гипотезу о равенстве нулю всех коэффициентов при предикторах. То есть, гипотезу о том, зависит ли вообще величина Y от величин Xi линейно. Для этого можно использовать следующую статистику, которая, если гипотеза о равенстве нулю всех коэффициентов верна, имеет

МОСКОВСКИЙ ГУМАНИТАРНО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ

Тверской филиал

Кафедра общегуманитарных дисциплин

КОНТРОЛЬНАЯ РАБОТА

Специальность: Бухгалтерский учет, анализ и аудит.

Учебная дисциплина: «Эконометрика»

студентки 3 курса группа ББ-341

факультет экономики иуправления

Тимофеевой Татьяны Евгеньевны

Проверил

Снастин Александр Анатольевич

доцент, к. т. н.

Введение

I. Основная часть

Параметрическая идентификация парной линейнойэконометрической модели

Критерий Фишера

Прогнозирование спроса на продукцию предприятия.Использование в MS Excel функции«Тенденция»

Список литературы

Введение

Эконометрика - этонаука, лежащая на стыке между статистикой и математикой, она разрабатываетэкономические модели для цели параметрической идентификации, прогнозирования (анализа временныхрядов).

Классификацияэконометрических моделей и методов.

Эконометрические модели (ЭМ)

Эконометрические модели параметрической идентификации Эконометрические модели для цели прогнозирования Система эконометрических моделей

(установление параметров (естьли тренд) (комплексная модели) оценка)

y=a+b+x y=a+b*ty=a+b1x1-b2x2

y - зависимая переменная (отклик), прибыль, например. x - независимая переменная (регрессор),какова численность персонала, например. На основании наблюдений оцениваются a и b (определение параметров моделейили регрессионные коэффициенты).

№ п/п y x 1 11 1 2 13 2 3 14 3 4 12 4 5 17 5 6 16,7 6 7 17,8 7

На основании наблюденийоценивается a и b (определениепараметров моделей или регрессионные коэффициенты).

Параметрическая идентификациязанимается оценкой эконометрических моделей, в которых имеется один илинесколько x и один y. Для целейустановления влияния одних параметров работы предприятия на другие.

Если x впервой степени и нет корней, ни степеней, нет 1/x, томодель линейная .

y=axb - степенная функция;

y=abx - показательнаяфункция;

y=a1/x - парабола односторонняя.

/> Y-прибыль - линейная модель

Степенная функция

x – численность

Выбираем наиболее надежнуюмодель. После построения по одним и тем же эксперт данным одной линейной инескольких нелинейных моделей над каждой из полученных моделей производим двепроверки.

1 - на надежность модели илистатистическую значимость. Fкр - иликритерий Фишера. Табличное F и расчетное F. Если Fp_{> Fтабл. - томодель статистически значима.}

2 - Отобрав из моделей всезначимые модели, среди них находим самую точную, у которой минимальная средняяошибка аппроксимации .

Эконометрические модели дляпрогнозов исследуют поведение одного параметра работы предприятия во времени.

I. Основная частьПараметрическая идентификация парной линейнойэконометрической модели

По семи областям регионаизвестны значения двух признаков за 2007г.

Район

Расходы на покупку продовольственных товаров в общих расходах,%, у

среднедневная заработная плата одного работающего, руб., х

1 68,8 45,1 2 61,2 59 3 59,9 57,2 4 56,7 61,8 5 55 58,8 6 54,3 47,2 7 49,3 55,2 №п/п Y x ух ŷ

/> (ŷ - у) 2

(y-ŷ) /y 1 68,80 45,10 3102,88 2034,01 61,33 11,8286862 55,87562 0,108648 2 61, 20 59,00 3610,80 3481,00 56,46 2,0326612 22,46760 0,077451 3 59,90 57, 20 3426,28 3271,84 57,09 0,6331612 7,89610 0,046912 4 56,70 61,80 3504,06 3819,24 55,48 5,7874612 1,48840 0,021517 5 55,00 58,80 3234,00 3457,44 56,53 1,8379612 2,34090 0,027820 6 54,30 47, 20 2562,96 2227,84 60,59 7,3131612 39,56410 0,115840 7 49,30 55, 20 2721,36 3047,04 57,79 0,0091612 72,08010 0,172210 Итого 405, 20 384,30 22162,34 21338,41 405,27 29,4422535 201,7128 0,570398 Средн. з 57,89 54,90 3166,05 3048,34 57,90 4, 2060362 28,81612 0,081485

/>/>/>/>/> y x yx x2

Исходные данные x и y могут быть двух типов:

а) рассматриваем однопредприятие, то наблюдения берутся через равностоящие промежутки времени (1 вквартал);

б) если каждое наблюдение - этоотдельное предприятие, то данные берутся на одну и ту же дату, например, на 01.01.07

у - расходы на продовольственныетовары в процентах; траты, например, на еду.

/>/>/>yx-yx

(Гаусс) x² - (x) ²

х - среднедневная заработнаяплата, в руб.

у = а + bх - линейная парная регрессионная ЭМ.

0.35 a=y - b x =76,88

b = (3166,049-57,88571*54,9)/ (3048,344-54,9) = - 0,35

а = 57,88571 - (- 0,35) *54,9 =77,10071

ŷ= 77,10071-0,35х

ŷ (игрек с крышечкой) =76,88-0,35х -это модельное значение y, котороеполучается путем подстановки в y = a+ b x,конкретное значение a и bкоэффициенты, а также x из конкретной строчки.

Критерий Фишера

/>/>Σ (ŷ -y) 2 m

Σ (y - ŷ) 2 (n-m-1)

n - количество наблюдений;

m - количество регрессоров (x1)

Допустим, 0,7. Fкритне может быть меньше единицы, поэтому, если мы получим значение < 1, то

Обратное значение. =1,4

1. Таблица значений F-критерия Фишера для уровня значимости α = 0.05

1 2 3 4 5 6 8 12 24 ∞ 1 161,45 199,50 215,72 224,57 230,17 233,97 238,89 243,91 249,04 254,32 2 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,41 19,45 19,50 3 10,13 9,55 9,28 9,12 9,01 8,94 8,84 8,74 8,64 8,53 4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,91 5,77 5,63 5 6,61 5,79 5,41 5, 19 5,05 4,95 4,82 4,68 4,53 4,36 6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,00 3,84 3,67 7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,57 3,41 3,23 8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,28 3,12 2,93 9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,07 2,90 2,71 10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,91 2,74 2,54 11 4,84 3,98 3,59 3,36 3, 20

2,95 2,79 2,61 2,40

Когда m=1,выбираем 1 столбец.

k2=n-m=7-1=6 - т.е.6-я строка - беремтабличное значение Фишера

Fтабл=5.99,у ср. = итого: 7

Влияние х на у - умеренное иотрицательное

ŷ- модельноезначение.

F расч. = 28,648: 1 = 0,92 200,50: 5

А = 1/7 * 398,15 * 100% = 8,1%< 10% -

приемлемое значение

Модель достаточно точная.

F расч. = 1/0,92 =1,6

F расч. = 1,6 < F табл. = 5,99

Должно быть Fрасч.> Fтабл

Нарушается данная модель,поэтому данное уравнение статистически не значимо.

Так как расчетное значениеменьше табличного - незначимая модель.

1 Σ (y - ŷ) *100% N y

Ошибка аппроксимации.

A=1/7*0,563494* 100% = 8,04991% 8,0%

Считаем, что модель точная, еслисредняя ошибка аппроксимации менее 10%.

Параметрическая идентификация парной нелинейной регрессии

Модель у = а * хb - степенная функция

Чтобы применить известнуюформулу, необходимо логарифмировать нелинейную модель.

log у = log a + b log x

Y=C+b*X -линейная модель.

/>x²- (x) ²

/>/>C=Y-b*X

С = 1,7605 - (- 0,298) * 1,7370= 2,278

Возврат к исходной модели

Ŷ=10с*xb=102.278*x-0.298

№п/п У X Y X Y*X

У I (y-ŷ) /yI 1 68,80 45,10 1,8376 1,6542 3,039758 2,736378 60,9614643 0,113932 2 61, 20 59,00 1,7868 1,7709 3,164244 3,136087 56,2711901 0,080536 3 59,90 57, 20 1,7774 1,7574 3,123603 3,088455 56,7931534 0,051867 4 56,70 61,80 1,7536 1,7910 3,140698 3, 207681 55,4990353 0,021181 5 55,00 58,80 1,7404 1,7694 3,079464 3,130776 56,3281590 0,024148 6 54,30 47, 20 1,7348 1,6739 2,903882 2,801941 60,1402577 0,107555 7 49,30 55, 20 1,6928 1,7419 2,948688 3,034216 57,3987130 0,164274 Итого 405, 20 384,30 12,3234 12,1587 21,40034 21,13553 403,391973 0,563493 Средняя 57,88571 54,90 1,760486 1,736957 3,057191 3,019362 57,62742 0,080499

Входим в EXCELчерез «Пуск»-программы. Заносим данные в таблицу. В «Сервис»- «Анализ данных» - «Регрессия» - ОК

Если в меню «Сервис» отсутствуетстрока «Анализ данных», то ее необходимо установить через «Сервис»- «Настройки» - «Пакет анализа данных»

Прогнозирование спроса на продукцию предприятия. Использованиев MS Excelфункции «Тенденция»

A - спросна товар. B - время, дни