Организационный смысл алгоритма джонсона заключается в. Большая энциклопедия нефти и газа

Классический метод наименьших квадратов (МНК) для модели множественной регрессии. Свойства оценок МНК для модели множественной регрессии и показатели качества подбора регрессии: коэффициент множественной корреляции, коэффициенты частной корреляции, коэффициент множественной детерминации

Мультиколлинœеарность факторов. Признаки мультиколлинœеарности и способы ее устранения. Гомоскедастичность и гетероскедастичность остатков. Графический метод обнаружения гетероскедастичности. Причины и последствия гетероскедастичности.

МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

На любой экономический показатель чаще всœего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и в ряде других вопросов экономики. Сегодня множественная регрессия – один из наиболее распространенных методов в эконометрике. Основной целью множественной регрессии является построение модели с большим числом факторов, а также определœение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель.

Множественный регрессионный анализ является развитием парного регрессионного анализа в случаях, когда зависимая переменная связана более чем с одной независимой переменной. Большая часть анализа является непосредственным расширением парной регрессионной модели, но здесь также появляются и некоторые новые проблемы, из которых следует выделить две. Первая проблема касается исследования влияния конкретной независимой переменной на зависимую переменную, а также разграничения её воздействия и воздействий других независимых переменных. Второй важной проблемой является спецификация модели, которая состоит в том, что крайне важно ответить на вопрос, какие факторы следует включить в регрессию (1), а какие – исключить из неё.

Самой употребляемой и наиболее простой из моделœей множественной регрессии является линœейная модель множественной регрессии:

Параметр α принято называть свободным членом и определяет значение y в случае, когда всœе объясняющие переменные равны нулю. При этом, как и в случае парной регрессии, факторы по своему экономическому содержанию часто не могут принимать нулевых значений, и значение свободного члена не имеет экономического смысла. При этом, в отличие от парной регрессии, значение каждого регрессионного коэффициента равно среднему изменению y при увеличении x j на одну единицу лишь при условии, что всœе остальные факторы остались неизменными. Величина ε представляет собой случайную ошибку регрессионной зависимости.

Получение оценок параметров уравнения регрессии (2) – одна из важнейших задач множественного регрессионного анализа. Самым распространенным методом решения этой задачи является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной y от её значений , получаемых по уравнению регрессии.

Пусть имеется n наблюдений объясняющих переменных и соответствующих им значений результативного признака:

Для однозначного определœения значений параметров уравнения (4) объём выборки n должен быть не меньше количества параметров, ᴛ.ᴇ. . В противном случае значения параметров не бывают определœены однозначно. В случае если n=p +1, оценки параметров рассчитываются единственным образом без МНК простой подстановкой значений (5) в выражение (4). Получается система (p +1) уравнений с таким же количеством неизвестных, которая решается любым способом, применяемым к системам линœейных алгебраических уравнений (СЛАУ). При этом с точки зрения статистического подхода такое решение задачи является ненадежным, поскольку измеренные значения переменных (5) содержат различные виды погрешностей. По этой причине для получения надежных оценок параметров уравнения (4) объём выборки должен значительно превышать количество определяемых по нему параметров. Практически, как было сказано ранее, объём выборки должен превышать количество параметров при x j в уравнении (4) в 6-7 раз.

Линейная модель множественной регрессии - понятие и виды. Классификация и особенности категории "Линейная модель множественной регрессии" 2017, 2018.

      Оценка параметров модели уравнения множественной регрессии

В реальных ситуациях поведение зависимой переменной невозможно объяснить только с помощью одной зависимой переменной. Лучшее объяснение обычно дают несколько независимых переменных. Регрессионная модель, включающая несколько независимых переменных, называется множественной регрессией. Идея вывода коэффициентов множественной регрессии сходна с парной, но обычное алгебраическое их представление и вывод становятся весьма громоздкими. Для современных вычислительных алгоритмов и наглядного представления действий с уравнением множественной регрессии используется матричная алгебра. Матричная алгебра делает возможным представление операций над матрицами аналогичным операциям над отдельными числами и, тем самым определяет свойства регрессии в ясных и сжатых терминах.

Пусть имеется набор из n наблюдений с зависимой переменной Y , k объясняющими переменными X 1 , X 2 ,..., X k . Можно записать уравнение множественной регрессии следующим образом:

В терминах массива исходных данных это выглядит так:

=
(3.2).

Коэффициенты и параметры распределения  неизвестны. Наша задача состоит в получении этих неизвестных. Уравнения, входящие в (3.2), в матричной форме имеют вид:

Y = X + , (3.3)

где Y – вектор вида (y 1 ,y 2 , … ,y n) t

X – матрица, первый столбец которой составляют n единиц, а последующие k столбцов x ij , i = 1,n;

 - вектор коэффициентов множественной регрессии;

 - вектор случайной составляющей.

Чтобы продвинуться к цели оценивания вектора коэффициентов , необходимо принять несколько предположений относительно того, как генерируются наблюдения, содержащиеся в (3.1):

E () = 0 ; (3.а)

E ( ) = 2 I n ; (3.б)

X – множество фиксированных чисел; (3.в)

 (X ) = k < n . (3.г)

Первая гипотеза означает, что E ( i ) = 0 для всех i , то есть переменные i имеют нулевую среднюю. Предположение (3.б) – компактная запись второй очень важной гипотезы. Так как – вектор-столбец размерности n 1, а  – вектор-строка, произведение  – симметрическая матрица порядка n и

E () E ( 1 2 ) ... E ( 1 n ) 2 0 ... 0

E ( ) = E ( 2 1 ) E () ... E ( 2 n ) = 0 2 ... 0

E ( n 1 ) E ( n 2 ) ... E () 0 0 ... 2

Элементы, стоящие на главной диагонали, свидетельствуют о том, что E( i 2 ) = 2 для всех i . Это означает, что все i имеют постоянную дисперсию 2 – свойство, в связи с которым говорят о гомоскедастичности. Элементы, не стоящие на главной диагонали, дают нам E( t t+s ) = 0 для s  0, так что значения i попарно некоррелированы. Гипотеза (3.в), в силу которой матрица X образована из фиксированных (неслучайных) чисел, означает, что в повторяющихся выборочных наблюдениях единственным источником случайных возмущений вектора Y являются случайные возмущения вектора , и поэтому свойства наших оценок и критериев обусловлены матрицей наблюдений X . Последнее предположение относительно матрицы X , ранг которой принимается равным k , означает, что число наблюдений превышает число параметров (иначе невозможна оценка этих параметров), и что не существует строгой зависимости между объясняющими переменными. Это соглашение простирается на все переменные X j , включая переменную X 0 , значение которой всегда равно единице, что соответствует первому столбцу матрицы X .

Оценка регрессионной модели с коэффициентами b 0 , b 1 ,…,b k , которые являются оценками неизвестных параметров 0 , 1 ,…, k и наблюдаемыми ошибками e , которые являются оценками ненаблюдаемых , может быть записана в матричной форме следующим образом


(3.4).

При использовании правил матричного сложения и умноженияотношения между возможно большими массивами чисел могут быть записаны несколькими символами. Используя правило транспонирования:A = транспонированной A , мы можем представить ряд других результатов. Система нормальных уравнений (для регрессии с любым числом переменных и наблюдений) в матричном формате записывается так:

Х Хb = Х Y (3.5).

Используя правило получения обратной матрицы: A -1 = инверсия A, мы можем решить систему нормальных уравнений путем перемножения каждой стороны уравнения (3.5) с матрицей Х) -1 :

Х) -1 Х)b = (Х Х) -1 X Y

Ib = (Х Х) -1 X Y

Где I – матрица идентификации (единичная матрица), являющаяся результатом умножения матрицы на обратную. Поскольку Ib=b , мы получаем решение нормальных уравнений в терминах метода наименьших квадратов для оценки вектора b :

b = (Х Х) -1 X Y (3.6).

Отсюда, для любого числа переменных и значений данных, мы получаем вектор параметров оценки, транспонирование которых есть b 0 , b 1 ,…,b k, как результат матричных операций над уравнением (3.6).

Представим теперь и другие результаты. Предсказанное значение Y, которое мы обозначаем как , корреспондирует с наблюдаемыми значениями Y как:
(3.7).

Поскольку b = (Х Х) -1 X Y , то мы можем записать подогнанные значения в терминах трансформации наблюдаемых значений:

(3.8).

Обозначив
, можем записать
.

Все матричные вычисления осуществляются в пакетах программ по регрессионному анализу.

Матрица ковариации коэффициентов оценки b задана как:

, это следует из того, что

Поскольку неизвестно и оценивается МНК, то мы имеем оценку ковариации матрицыb как:
(3.9).

Если мы обозначим матрицу С как
, то оценка стандартной ошибки каждогоb i есть

(3.10),

где С ii – диагональ матрицы.

      Спецификация модели. Ошибки спецификации

Журнал «Quarterly Review of Economics and Business» приводит данные о вариации дохода кредитных организаций США за период 25 лет в зависимости от изменений годовой ставки по сберегательным депозитам и числа кредитных учреждений. Логично предположить, что, при прочих равных условиях, предельный доход будет положительно связан с процентной ставкой по депозиту и отрицательно с числом кредитных учреждений. Построим модель следующего вида:

,

–прибыль кредитных организаций (в процентах);

–чистый доход на один доллар депозита;

–число кредитных учреждений.

Исходные данные для модели:

Анализ данных начинаем с расчета дескриптивных статистик:

Таблица 3.1. Дескриптивныестатистики

Сравнивая значения средних величин и стандартных отклонений, находим коэффициент вариации, значения которого свидетельствуют о том, что уровень варьирования признаков находится в допустимых пределах (< 0,35). Значения коэффициентов асимметрии и эксцесса указывают на отсутствие значимой скошенности и остро-(плоско-) вершинности фактического распределения признаков по сравнению с их нормальным распределением. По результатам анализа дескриптивных статистик можно сделать вывод, что совокупность признаков – однородна и для её изучения можно использовать метод наименьших квадратов (МНК) и вероятностные методы оценки статистических гипотез.

Перед построением модели множественной регрессии рассчитаем значения линейных коэффициентов парной корреляции. Они представлены в матрице парных коэффициентов (таблица 3.2) и определяют тесноту парных зависимостей анализируемыми между переменными.

Таблица 3.2. Коэффициенты парной линейной корреляции Пирсона

В скобках: Prob > |R| under Ho: Rho=0 / N = 25

Коэффициент корреляции между исвидетельствует о значительной и статистически существенной обратной связи между прибылью кредитных учреждений, годовой ставкой по депозитам и числом кредитных учреждений. Знак коэффициента корреляции между прибылью и ставкой по депозиту имеет отрицательный знак, что противоречит нашим первоначальным предположениям, связь между годовой ставкой по депозитам и числом кредитных учреждений – положительная и высокая.

Если мы обратимся к исходным данным, то увидим, что в течение исследуемого периода число кредитных учреждений возрастало, что могло привести к росту конкуренции и увеличению предельной ставки до такого уровня, который и повлек за собой снижение прибыли.

Приведенные в таблице 3.3 линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии.

Таблица 3.3. Коэффициенты частной корреляции

В скобках: Prob > |R| under Ho: Rho=0 / N = 10

Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной пары переменных с другими переменными, представленными в модели. Наиболее тесно связаны и,
. Другие взаимосвязи существенно слабее. При сравнении коэффициентов парной и частной корреляции видно, что из-за влияния межфакторной зависимости междуипроисходит некоторое завышение оценки тесноты связи между переменными.

Результаты построения уравнения множественной регрессии представлены в таблице 3.4.

Таблица 3.4. Результаты построения модели множественной регрессии

Независимые переменные

Коэффициенты

Стандартные ошибки

t - статистики

Вероятность случайного значения

Константа

x 1

x 2

R 2 = 0,87

R 2 adj =0,85

F = 70,66

Prob > F = 0,0001

Уравнение имеет вид:

y = 1,5645+ 0,2372x 1 - 0,00021x 2.

Интерпретация коэффициентов регрессии следующая:

оценивает агрегированное влияние прочих (кроме учтенных в модели х 1 и х 2 ) факторов на результат y ;

и указывают на сколько единиц изменитсяy при изменении х 1 и х 2 на единицу их значений. Для заданного числа кредитных учреждений, увеличение на 1% годовой ставки по депозитам ведет к ожидаемому увеличению на 0,237% в годовом доходе этих учреждений. При заданном уровне годового дохода на один доллар депозита, каждое новое кредитное учреждение снижает норму прибыли для всех на 0,0002%.

Значения стандартной ошибки параметров представлены в графе 3 таблицы 3.4: Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Их значения используются для расчетаt -критерия Стьюдента (графа 4)

19,705;
=4,269;
=-7,772.

Если значения t -критерия больше 2, то можно сделать вывод о существенности влияния данного значения параметра, которое формируется под влиянием неслучайных причин.

Зачастую интерпретация результатов регрессии более наглядна, если произведен расчет частных коэффициентов эластичности. Частные коэффициенты эластичности
показывают, на сколько процентов от значения своей средней
изменяется результат при изменении фактораx j на 1% от своей средней
и при фиксированном воздействии наy прочих факторов, включенных в уравнение регрессии. Для линейной зависимости
, гдекоэффициент регрессии прив уравнении множественной регрессии. Здесь

Нескорректированный множественный коэффициент детерминации
оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. В нашем примере эта доля составляет 86,53% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов. Иными словами, на весьма тесную связь факторов с результатом.

Скорректированный
(гдеn – число наблюдений, m – число переменных) определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов в модели и поэтому может сравниваться по разныммоделям с разным числом факторов. Оба коэффициента указывают на весьма высокую детерминированность результата y в модели факторами x 1 и x 2 .

Для проведения дисперсионного анализа и расчета фактического значения F -критерия заполним таблицу результатов дисперсионного анализа, общий вид которой:

Сумма квадратов

Число степеней свободы

Дисперсия

F-критерий

За счет регрессии

С факт.

(SSR )


(MSR)

Остаточная

С ост.

(SSE )

(MSE)

С общ.

(SST )

n -1

Таблица 3.5. Дисперсионный анализ модели множественной регрессии

Колеблемость результативного признака

Сумма квадратов

Число степеней свободы

Дисперсия

F-критерий

За счет регрессии

Остаточная

Оценку надежности уравнения регрессии в целом, его параметров и показателя тесноты связи
даетF -критерий Фишера:

Вероятность случайного значения F - критерия составляет 0,0001, что значительно меньше 0,05. Следовательно, полученное значение неслучайно, оно сформировалось под влиянием существенных факторов. То есть подтверждается статистическая значимость всего уравнения, его параметров и показателя тесноты связи – коэффициента множественной корреляции.

Прогноз по модели множественной регрессии осуществляется по тому же принципу, что и для парной регрессии. Для получения прогнозных значений мы подставляем значения х i в уравнение для получения значения. Предположим, что мы хотим узнать ожидаемую норму прибыли, при условии, что годовая ставка депозита составила 3,97%, а число кредитных учреждений – 7115:

Качество прогноза – неплохое, поскольку в исходных данных таким значениям независимых переменных соответствует значение равное 0,70. Мы так же можем вычислить интервал прогноза как
- доверительный интервал для ожидаемого значенияпри заданных значениях независимых переменных:

где MSE – остаточная дисперсия, а стандартная ошибка
для случая нескольких независимых переменных имеет достаточно сложное выражение, которое мы здесь не приводим.
доверительный интервал для значенияпри средних значениях независимых переменных имеет вид:

Большинство пакетов программ рассчитывают доверительные интервалы.

      Гетероскедакстичность

Один из основных методов проверки качества подгонки линии регрессии по отношению к эмпирическим данным – анализ остатков модели.

Остатки или оценка ошибки регрессии могут быть определены как разница между наблюдаемыми y i и предсказанными значениями y i зависимой переменной для заданных значений x i , то есть
. При построении регрессионной модели мы предполагаем, что остатки её - некоррелированные случайные величины, подчиняющиеся нормальному распределению со средней равной нулю и постоянной дисперсией .

Анализ остатков позволяет выяснить:

1. Подтверждается или нет предположение о нормальности?

2. Является ли дисперсия остатков постоянной величиной?

3. Является ли распределение данных вокруг линии регрессии равномерным?

Кроме того, важным моментом анализа, является проверка того - есть ли в модели пропущенные переменные, которые должны быть включены в модель.

Для данных, упорядоченных во времени, анализ остатков может обнаружить имеет ли факт упорядочения влияние на модель, если да, то переменная, задающая временной порядок должна быть добавлена в модель.

И окончательно, анализ остатков обнаруживает верность предположения о некоррелированности остатков.

Самый простой способ анализа остатков – графический. В этом случае на оси Y откладываются значения остатков. Обычно используются, так называемые, стандартизованные (стандартные) остатки:

, (3.11),

где
,

а

В пакетах прикладных программ всегда предусмотрена процедура расчета и тестирования остатков и печати графиков остатков. Рассмотрим наиболее простые из них.

Предположение о гомоскедастичности можно проверить с помощью графика, на оси ординат которого откладывают значения стандартизованных остатков, а на оси абсцисс – значения Х. Рассмотрим гипотетический пример:

Модель с гетероскедастичностью Модель с гомоскедастичностью

Мы видим, что с увеличением значений Х увеличивается вариация остатков, то есть мы наблюдаем эффект гетероскедастичности, дефицит гомогенности (однородности) в вариации Y для каждого уровня. На графике определяем возрастают или убывают Х или Y при возрастании или убывании остатков. Если график не обнаруживает зависимости между и Х, то условие гомоскедастичности выполняется.

Если условие гомоскедастичности не выполняется, то модель не годится для прогноза. Надо использовать взвешенный метод наименьших квадратов или ряд других методов, которые освещаются в более продвинутых курсах статистики и эконометрики, или преобразовывать данные.

График остатков может помочь и определить есть ли в модели пропущенные переменные. Например, мы собрали данные о потреблении мяса за 20 лет - Y и оцениваем зависимость этого потребления от душевых доходов населения Х 1 и региона проживания Х 2 . Данные упорядочены во времени. После того как построена модель, полезно построить график остатков относительно временных периодов.

Если график обнаруживает наличие тенденции в распределении остатков во времени, то в модель необходимо включить объясняющую переменную t. в дополнение к Х 1 и Х 2 . Это же относится и к любым другим переменным. Если есть тренд в графике остатков, то и переменная должна быть включена в модель наряду с другими уже включенными переменными.

График остатков позволяет определить отклонения от линейности в модели. Если взаимосвязь между Х и Y носит нелинейный характер, то параметры уравнения регрессии будут указывать на плохое качество подгонки. В таком случае остатки будут вначале большими и отрицательными, затем уменьшатся, а потом станут положительными и случайными. Они указывают на криволинейность и график остатков будет иметь вид:

Ситуация может быть исправлена добавлением в модель Х 2 .

Предположение о нормальности так же может быть проверено с помощью анализа остатков. Для этого по значениям стандартных остатков строится гистограмм частот. Если линия, проведенная через вершины многоугольника, напоминает кривую нормального распределения, то предположение о нормальности подтверждается.

      Мультиколлинеарность, способы оценки и устранения

Для того, чтобы множественный регрессионный анализ, основанный на МНК, давал наилучшие результаты мы предполагаем, что значения Х -ов не являются случайными величинами и чтоx i в модели множественной регрессии не коррелированны. То есть каждая переменная содержит уникальную информацию оY , которая не содержится в другихx i . Когда такая идеальная ситуация имеет место, то мультиколлинеарность отсутствует. Полная коллинеарность появляется в случае, если одна изХ может быть точно выражена в терминах другой переменнойХ для всех элементов набора данных. На практике большинство ситуаций находится между этими двумя крайними случаями. Как правило, существует некоторая степень коллинеарности между независимыми переменными. Мера коллинеарности между двумя переменными есть корреляция между ними.

Оставим в стороне предположение о том, что x i не случайные величины и измерим корреляцию между ними. Когда две независимые переменные связаны высокой корреляцией, то мы говорим об эффекте мультиколлинеарности в процедуре регрессионной оценки параметров. В случае очень высокой коллинеарности процедура регрессионного анализа становится неэффективной, большинство пакетов ППП в этом случае выдают предупреждение или прекращают процедуру. Даже, если мы получим в таком ситуации оценки регрессионных коэффициентов, то их вариация (стандартная ошибка) будут очень малы.

Простое объяснение мультиколлинеарности можно дать в матричных терминах. В случае полной мультиколлинеарности, колонки матрицы х -ов – линейно зависимы. Полная мультиколлинеарность означает, что по крайней мере две из переменных х i зависят друг от друга. Из уравнения () видно, что это означает, что колонки матрицы зависимы. Следовательно, матрица
так же мультиколлинеарна и не может быть инвертирована (её детерминант равен нулю), то есть мы не можем вычислить
и не можем получить вектор параметров оценкиb . В случае, когда мультиколлинеарность присутствует, но не полная, то матрица – обращаемая, но не стабильная.

Причинами мультиколлинеарности могут быть:

1) Способ сбора данных и отбора переменных в модель без учета их смысла и природы (учета возможных взаимосвязей между ними). Например, с помощью регрессии мы оцениваем влияние на размер жилья Y доходов семьи Х 1 и размера семьи Х 2 . Если мы соберем данные только среди семей большого размера и высокими доходами и не включим в выборку семьи малого размера и с небольшими доходами, то в результате получим модель с эффектом мультиколлинеарности. Решением проблемы в этом случае будет улучшение схемы выборки.

В случае, если переменные взаимодополняют друг друга, подгонка выборки не поможет. Решением проблемы здесь может быть исключение одной из переменных модели.

2) Другая причина мультиколлинеарности может состоять в высокой мощности X i . Например, для линеаризации модели мы вводим дополнительный термин X 2 в модель, которая содержит X i . Если разброс значений Х незначителен, то мы получим высокую мультиколлинеарность.

Каким бы ни был источник мультиколлинеарности, важно избежать его появления.

Мы уже говорили, что компьютерные пакеты обычно выдают предупреждение о мультиколлинеарности или даже останавливают вычисления. В случае не столь высокой коллинеарности компьютер выдаст нам регрессионное уравнение. Но вариация оценок будет близка к нулю. Существуют два основных метода, доступных во всех пакетах, которые помогут нам решить эту проблему.

    Вычисление матрицы коэффициентов корреляции для всех независимых переменных. Например, матрица коэффициентов корреляции между переменными в примере из параграфа 3.2 (таблица 3.2) указывает на то, что коэффициент корреляции между х 1 и х 2 очень велик, то есть эти переменные содержат много идентичной информации о y и, следовательно, коллинеарны.

Надо заметить, что не существует единого правила, согласно которому есть некоторое пороговое значение коэффициента корреляции, после которого высокая корреляция может оказать отрицательный эффект на качество регрессии.

    Мультиколлинеарность может иметь причиной более сложные взаимосвязи между переменными нежели парные корреляции между независимыми переменными. Это влечет за собой использование второго метода определения мультиколлинеарности, который называется “фактор инфляции вариации”.

Степень мультиколлинеарности, представляемая в регрессии переменной , когда переменные,,…,включены в регрессию, есть функция множественной корреляции междуи другими переменными,,…,. Предположим, что мы рассчитаем регрессию не поy , а по , как зависимой переменной, и оставшимисякак независимыми. Из этой регрессии мы получимR 2 , значение которого – мера мультиколлинеарности привносимой переменной . Повторим, что основная проблема мультиколлинеарности – обесценивание дисперсии оценок коэффициентов регрессии. Для измерения эффекта мультиколлинеарности используется показатель VIF “variation inflation factor”, ассоциируемый с переменной:

(3.12),

где – значение коэффициента множественной корреляции, полученное для регрессоракак зависимой переменной и остальных переменных.

Можно показать, что VIF переменной равен отношению дисперсии коэффициентаb h в регрессии с y как зависимой переменной и дисперсией оценки b h в регрессии где не коррелированна с другими переменными. VIF – это фактор инфляции дисперсии оценки по сравнению с той вариацией, которая была бы, если быне имел коллинеарности с другими x переменными в регрессии. Графически это можно изобразить так:

Как видно из рисунка 7, когда R 2 от увеличивается по отношению к другим переменным от 0,9 до 1 VIF становится очень большим. Значение VIF, например, равное 6 означает, что дисперсия регрессионных коэфиициентовb h в 6 раз больше той, что должна была бы быть при полном отсутствии коллинеарности. Исследователи используют VIF = 10 как критическое правило для определения является ли корреляция между независимыми переменными слишком большой. В примере из параграфа 3.2 значение VIF = 8,732.

Как еще можно обнаружить эффект мультиколлинеарности без расчета корреляционной матрицы и VIF.

    Стандартная ошибка в регрессионных коэффициентах близка к нулю.

    Мощность коэффициента регрессии не та, что Вы ожидали.

    Знаки коэффициентов регрессии противоположны ожидаемым.

    Добавление или удаление наблюдений в модель сильно изменяет значения оценок.

    В некоторых ситуациях получается, что F – cущественно, а t – нет.

Насколько отрицательно сказывается эффект мультиколлинеарности на качестве модели? В дейсвительности проблема не столь страшна как кажется. Если мы используем уравнение для прогноза. То интерполяция результатов даст вполне надежные результаты. Эксторополяция приведет к значительным ошибкам. Здесь необходимы другие методы корректировки. Если мы хотим измерить влияние некоторых определенных перменных на Y, то здесь так же могут возникнуть проблемы.

Для решения проблемы мультиколлинеарности можно предпринять следующее:

    Удалить коллинеарные переменные. Это не всегда возможно в эконометрических моделях. В этом случае необходимо использовать другие методы оценки (обобщенный метод наименьших квадратов).

    Исправить выборку.

    Изменить переменные.

    Использовать гребневую регрессию.

      Гетероскедастичность, способы выявления и устранения

Если остатки модели имеют постоянную дисперсию, они называются гомоскедастичными, но если они непостоянны, то гетероскедастичными.

Если условие гомоскедастичности не выполняется, то надо использовать взвешенный метод наименьших квадратов или ряд других методов, которые освещаются в более продвинутых курсах статистики и эконометрики, или преобразовывать данные.

Например, нас интересуют факторы, влияющие на выпуск продукции на предприятиях определенной отрасли. Мы собрали данные о величине фактического выпуска, численности работников и стоимости основных фондов (основного капитала) предприятий. Предприятия различаются по величине и мы вправе ожидать, что для тех из них, объем выпускаемой продукции в которых выше, термин ошибки в рамках постулируемой модели будет так же в среднем больше, чем для малых предприятий. Следовательно, вариация ошибки не будет одинаковой для всех предприятий, она, скорее всего, будет возрастающей функцией от размера предприятия. В такой модели оценки не будут эффективными. Обычные процедуры построения доверительных интервалов, проверки гипотез для этих коэффициентов не будут надежными. Поэтому важно знать приемы определения гетероскедастичности.

Влияние гетероскедастичности на оценку интервала прогнозирования и проверку гипотезы заключается в том, что хотя коэффициенты не смещены, дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещены. Если смещение отрицательно, то стандартные ошибки оценки будут меньше, чем они должны быть, а критерий проверки будет больше, чем в реальности. Таким образом, мы можем сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот, если смещение положительно, то стандартные ошибки оценки будут больше, чем они должны быть, а критерии проверки – меньше. Значит, мы можем принять нулевую гипотезу о значимости коэффициента регрессии, в то время как она должна быть отклонена.

Обсудим формальную процедуру определения гетероскедастичности, когда условие постоянства дисперсии нарушено.

Предположим, что регрессионная модель связывает зависимую переменную и с k незавввисимыми переменными в наборе из n наблюдений. Пусть
- набор коэффициентов, полученных МНК и теоретическое значение переменной есть, остатки модели:
. Нуль-гипотеза состоит в том. что остатки имеют одинаковую дисперсию. Альтернативная гипотеза состоит в том, что их дисперсия зависит от ожидаемых значений:. Для проверки гипотезы проводим оценку линейной регрессии. в которой зависимая переменная есть квадрат ошибки, то есть, а независимая переменная – теоретическое значение. Пусть
- коэффициент детерминации в этой вспомогательной дисперсии. Тогда для заданного уровня значимости нуль-гипотеза отклоняется, если
больше чем, гдеесть критическое значение СВ
с уровнем значимости и одной степенью свободы.

В случае, если мы подтвердим гипотезу о том, что дисперсия ошибки регрессии не является постоянной величиной, то метод наименьших квадратов не приводит к наилучшей подгонке. Могут быть использованы различные способы подгонки, выбор альтернатив зависит от того, как дисперсия ошибки ведет себя с другими переменными. Чтобы решить проблему гетероскедастичности, нужно исследовать взаимосвязь между значением ошибки и переменными и трансформировать регрессионную модель так, чтобы она отражала эту взаимосвязь. Это может быть достигнуто посредством регрессии значений ошибок по различным формам функций переменной, которая приводит к гетероскедастичности.

Одна из возможностей устранения гетероскедастичности состоит в следующем. Предположим, что вероятность ошибки прямо пропорциональна квадрату ожидаемого значения зависимой переменной при заданных значениях независимой, так что

В этом случае можно использовать простую двухшаговую процедуру оценки параметров модели. На первом шаге модель оценивается при помощи МНК обычным способом и формируется набор значений . На втором шаге оценивается регрессионное уравнение следующего вида:

Где - ошибка дисперсии, которая будет постоянной. Это уравнение будет представлять регрессионную модель, к которой зависимая переменная -, а независимые -
. Затем коэффициенты оцениваются МНК.

Появление гетероскедастичности часто вызывается тем, что оценивается линейная регрессия, в то время как необходимо оценивать лог-линейную регрессию. Если обнаружена гетероскедастичность, то можно попытаться переоценить модель в логарифмической форме, особенно если содержательный аспект модели не противоречит этому. Особенно важно использование логарифмической формы, когда ощущается влияние наблюдений с большими значениями. Этот подход весьма полезен, в случае если изучаемые данные – временные ряды таких экономических переменных, как потребление, доходы, деньги, которые имеют тенденцию к экспоненциональному распределению во времени.

Рассмотрим другой подход, например,
, где X i – независимая переменная (или какая-либо функция независимой переменной), которая предположительно является причиной гетероскедастичности, а Н отражает степень взаимосвязи между ошибками и данной переменной, например, Х 2 или Х 1/n и т.д. Следовательно, дисперсия коэффициентов запишется:
. Отсюда, если H=1 , то мы трансформируем регрессионную модель к виду:
. Если Н=2, то есть дисперсия увеличивается в пропорции к квадрату рассматриваемой переменой Х, трансформация приобретает вид:
.

Разберем пример с проверкой гетероскедастичности в модели, построенной по данным примера из параграфа 3.2. Для визуального контроля гетероскедастичности построим график остатков и предсказанных значений .

Рис.8. График распределения остатков модели, построенной по данным примера

На первый взгляд график не обнаруживает наличия зависимости между значениями остатков модели и . Для более точной проверки рассчитаем регрессию, в которой остатки модели, возведенные в квадрат, - зависимая переменная, а- независимая:
. Значение стандартной ошибки оценки равно 0,00408,
=0,027, отсюда
=250,027=0,625. Табличное значение
=2,71. Таким образом, нуль-гипотеза, о том, что ошибка регрессионного уравнения имеет постоянную дисперсию, не отклоняется на 10% уровне значимости.

В современных компьютерных пакетах по регрессионному анализу предусмотрены специальные процедуры диагностики гетераскедастичности и её устранения.

Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

26. Линейная модель множественной регрессии

Построение модели множественной регрессии является одним из методов характеристики аналитической формы связи между зависимой (результативной) переменной и несколькими независимыми (факторными) переменными.

Модель множественной регрессии строится в том случае, если коэффициент множественной корреляции показал наличие связи между исследуемыми переменными.

Общий вид линейной модели множественной регрессии:

yi=?0+?1x1i+…+?mxmi+?i,

где yi – значение i-ой результативной переменной,

x1i…xmi – значения факторных переменных;

?0…?m – неизвестные коэффициенты модели множественной регрессии;

?i – случайные ошибки модели множественной регрессии.

При построении нормальной линейной модели множественной регрессии учитываются пять условий:

1) факторные переменные x1i…xmi – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии ?i;

3) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

4) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т.е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Это условие выполняется в том случае, если исходные данные не являются временными рядами;

5) на основании третьего и четвёртого условий часто добавляется пятое условие, заключающееся в том, что случайная ошибка модели регрессии – это случайная величина, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ?i~N(0, G2).

Общий вид нормальной линейной модели парной регрессии в матричной форме:

Y=X* ?+?,

– случайный вектор-столбец значений результативной переменной размерности (n*1);

– матрица значений факторной переменной размерности (n*(m+1)). Первый столбец является единичным, потому что в модели регрессии коэффициент ?0 умножается на единицу;

– вектор-столбец неизвестных коэффициентов модели регрессии размерности ((m+1)*1);

– случайный вектор-столбец ошибок модели регрессии размерности (n*1).

Включение в линейную модель множественной регрессии случайного вектора-столбца ошибок модели обусловлено тем, что практически невозможно оценить связь между переменными со 100-процентной точностью.

Условия построения нормальной линейной модели множественной регрессии, записанные в матричной форме:

1) факторные переменные x1j…xmj – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии ?i . В терминах матричной записи Х называется детерминированной матрицей ранга (k+1), т.е. столбцы матрицы X линейно независимы между собой и ранг матрицы Х равен m+1

2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

3) предположения о том, что дисперсия случайной ошибки модели регрессии является постоянной для всех наблюдений и ковариация случайных ошибок любых двух разных наблюдений равна нулю, записываются с помощью ковариационной матрицы случайных ошибок нормальной линейной модели множественной регрессии:

G2 – дисперсия случайной ошибки модели регрессии?;

In – единичная матрица размерности (n*n ).

4) случайная ошибка модели регрессии? является независимой и независящей от матрицы Х случайной величиной, подчиняющейся многомерному нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ??N(0;G2In.

В нормальную линейную модель множественной регрессии должны входить факторные переменные, удовлетворяющие следующим условиям:

1) данные переменные должны быть количественно измеримыми;

2) каждая факторная переменная должна достаточно тесно коррелировать с результативной переменной;

3) факторные переменные не должны сильно коррелировать друг с другом или находиться в строгой функциональной зависимости.

Из книги Большая Советская Энциклопедия (ЛИ) автора БСЭ

Из книги Пикап. Самоучитель по соблазнению автора Богачев Филипп Олегович

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

Из книги автора

Из книги автора

Из книги автора

9. Общая модель парной (однофакторной) регрессии Общая модель парной регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений.Регрессионным анализом называется

Из книги автора

10. Нормальная линейная модель парной (однофакторной) регрессии Общий вид нормальной (традиционной или классической) линейной модели парной (однофакторной) регрессии (Classical Normal Regression Model):yi=?0+?1xi+?i,где yi– результативные переменные, xi – факторные переменные, ?0, ?1 – параметры

Из книги автора

14. Оценка коэффициентов модели парной регрессии с помощью выборочного коэффициента регрессии Помимо метода наименьших квадратов, с помощью которого в большинстве случаев определяются неизвестные параметры модели регрессии, в случае линейной модели парной регрессии

Из книги автора

27. Классический метод наименьших квадратов для модели множественной регрессии. Метод Крамера В общем виде линейную модель множественной регрессии можно записать следующим образом:yi=?0+?1x1i+…+?mxmi+?i, где yi – значение i-ой результативной переменной,x1i…xmi – значения факторных

Из книги автора

28. Линейная модель множественной регрессии стандартизированного масштаба Помимо классического метода наименьших квадратов для определения неизвестных параметров линейной модели множественной регрессии?0…?m используется метод оценки данных параметров через

Из книги автора

31. Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными позволяют определить степень зависимости между

Из книги автора

32. Построение частных коэффициентов корреляции для модели множественной регрессии через показатель остаточной дисперсии и коэффициент множественной детерминации Помимо рекуррентных формул, которые используются для построения частных коэффициентов корреляции для

Из книги автора

33. Коэффициент множественной корреляции. Коэффициент множественной детерминации Если частные коэффициенты корреляции модели множественной регрессии оказались значимыми, т. е. между результативной переменной и факторными модельными переменными действительно

Из книги автора

35. Проверка гипотезы о значимости коэффициентов регрессии и модели множественной регрессии в целом Проверка значимости коэффициентов регрессии означает проверку основной гипотезы об их значимом отличии от нуля.Основная гипотеза состоит в предположении о незначимости

Из книги автора

46. Проверка гипотезы о значимости нелинейной модели регрессии. Проверка гипотезы о линейной зависимости между переменными модели регрессии На нелинейные модели регрессии, которые являются внутренне линейными, т. е. сводимыми к линейному виду, распространяются все

Из книги автора

65. Обобщённая модель регрессии. Обобщённый метод наименьших квадратов. Теорема Айткена МНК-оценки неизвестных коэффициентов модели регрессии, чьи случайные ошибки подвержены явлениям гетероскедастичности или автокорреляции, не будут удовлетворять теореме

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Поведение отдельных экономических переменных контролировать нельзя, т. е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. построить уравнение множественной регрессии:

Такого рода уравнение может использоваться при изучении потребления. Тогда коэффициенты - частныепроизводные потребления по соответствующим факторам :

в предположении, что все остальные постоянны.

В 30-е гг. XX в. Кейнс сформулировал свою гипотезу потребительской функции. С того времени исследователи неоднократно обращались к проблеме ее совершенствования. Современная потребительская функция чаще всего рассматривается как модель вида:

где С - потребление; у - доход; Р - цена, индекс стоимости жизни; М - наличные деньги; Z - ликвидные активы.

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций; при изучении функции издержек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов эконометрики. Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Построение уравнения множественной регрессия начинается с решения вопроса о спецификации модели. Спецификация модели включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Требования к факторам.

1 Они должны быть количественно измеримы.

2.Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Разновидностью интеркоррелированности факторов является мультиколлинеарность - наличие высокой линейной связи между всеми или несколькими факторами.

Причинами возникновения мультиколлинеарности между призанками являются:

1. Изучаемые факторные признаки, характеризуют одну и ту же сторону явления или процесса. Например, показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия;

2. Использование в качестве факторных признаков показателей, суммарное значение которых представляет собой постоянную величину;

3. Факторные признаки, являющиеся составными элементами друг друга;

4. Факторные признаки, по экономическому смыслу дублирующие друг друга.

5. Одним из индикаторов определения наличия мультиколлинеарности между признаками является превышение парным коэффициентом корреляции величины 0,8 (rxi xj) и др.

Мультиколлинеарность может привести к нежелательным последствиям:

1) оценки параметров становятся ненадежными, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только в величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

2) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;

3) нельзя определить изолированное влияние факторов на результативный показатель.

Включение в модель факторов с высокой интеркорреляцией (Ryx1Rx1x2) может привести к ненадежности оценок коэф-ов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретированными. Включаемые во множ.регрессию факторы должны объяснить вариацию независимой переменной. Отбор факторов производится на основе качественного теоретико-экономического анализа, который обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Если факторы коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.