Модели множественной регрессии. Множественная линейная регрессия

1. Введение…………………………………………………………………….3

1.1. Линейная модель множественной регрессии……………………...5

1.2. Классический метод наименьших квадратов для модели множественной регрессии…………………………………………..6

2. Обобщенная линейная модель множественной регрессии……………...8

3. Список использованной литературы…………………………………….10

Введение

Временной ряд - это совокупность значений какого-либо показателя за несколько последовательных моментов (периодов) времени. Каждый уровень временного ряда формируется под воздействием большой числа факторов, которые условно можно подразделить на три группы:

Факторы, формирующую тенденцию ряда;

Факторы, формирующие циклические колебания ряда;

Случайные факторы.

При различных сочетаниях этих факторов зависимость уров­ней рада от времени может принимать разные формы.

Большинство временных рядов экономических показателей имеют тенденцию, характеризующую совокупное долговременное воздействие множества факторов на динамику изучаемого показателя. По всей видимости, эти факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на исследуемый показатель. Однако в совокупности они форми­руют его возрастающую или убывающую тенденцию.

Также изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезон­ный характер., поскольку экономическая деятельность ряда от­раслей зависит от времени года (например, цены на сельскохо­зяйственную продукцию в летний период выше, чем в зимний; уровень безработицы в курортных городах в зимний период выше по сравнению с летним). При наличии больших массивов данных за длительные промежутки времени можно выявить циклические колебания, связанные с общей динамикой конъюнктуры рынка, а также с фазой бизнес-цикла, в которой находится экономика страны.

Некоторые временные ряды не содержат тенденции и цикли­ческую компоненту, а каждый следующий их уровень образуется как сумма среднего уровня рада и некоторой (положительной или отрицательной) случайной компоненты.

Очевидно, что реальные данные не соответствуют полностью ни одной из описанных выше моделей. Чаще всего они содержат все три компоненты. Каждый их уровень формируется под воз­действием тенденции, сезонных колебаний и случайной компо­ненты.

В большинстве случаев фактический уровень временного ря­да можно представить как сумму или произведение трендовой, циклической и случайной компонент. Модель, в которой времен­ной ряд представлен как сумма перечисленных компонент, назы­вается аддитивной моделью временного ряда. Модель, в которой временной ряд представлен как произведение перечисленных компонент, называется мультипликативной моделью временного ряда.


1.1. Линейная модель множественной регрессии

Парная регрессия может дать хороший результат при моделирова­нии, если влиянием других факторов, воздействующих на объект исследо­вания, можно пренебречь. Если же этим влиянием пренебречь нельзя, то в этом случае следует попытаться выявить влияние других факторов, вводя их в модель, т.е, построить уравнение множественной регрессии.

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов экономет­рики. В настоящее время множественная регрессия - один из наиболее распространенных методов в эконометрике.

Основная цель множественной регрессии - построить модель с боль­шим числом факторов, определив при этом влияние каждого из них в отдель­ности, а также совокупное их воздействие на моделируемый показатель.

Общий вид линейной модели множественной регрессии:

где n - объём выборки, который по крайней мере в 3 раза превосходит m -количество независимых переменных;

у i - значение результативной пере­менной в наблюдении I;

х i1 ,х i2 , ...,х im -значения независимых перемен­ных в наблюдении i;

β 0 , β 1 , … β m -параметры уравнения регрессии, под­лежащие оценке;

ε - значение случайной ошибки модели множественной регрессии в наблюдении I,

При построении модели множественной линейной регрессии учиты­ваются следующие пять условий:

1. величины х i1 ,х i2 , ...,х im - неслучайные и независимые переменные;

2. математическое ожидание случайной ошибки уравнения регрессии
равно нулю во всех наблюдениях: М (ε) = 0, i= 1,m;

3. дисперсия случайной ошибки уравнения регрессии является постоянной для всех наблюдений: D(ε) = σ 2 = const;

4. случайные ошибки модели регрессии не коррелируют между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю): соv(ε i ,ε j .) = 0, i≠j;

5. случайная ошибка модели регрессии - случайная величина, подчиняющаяся нормальному закону распределения с нулевым математическим ожиданием и дисперсией σ 2 .

Матричный вид линейной модели множественной регрессии:

где: - вектор значений результативной переменной размерности n×1

матрица значений независимых переменных размерности n× (m + 1). Первый столбец этой матрицы является единичным, так как в модели регрессии коэффициент β 0 , умножается на единицу;

Вектор значений результативной переменной размерности (m+1)×1

Вектор случайных ошибок размерности n×1

1.2. Классический метод наименьших квадратов для модели множественной регрессии

Неизвестные коэффициенты линейной модели множественной рег­рессии β 0 , β 1 , … β m оцениваются с помощью классического метода наи­меньших квадратов, основная идея которого заключается в определении такого вектора оценки Д, который минимизировал бы сумму квадратов отклонений наблюдаемых значений результативной переменной у от мо­дельных значений (т. е. рассчитанных на основании построенной моде­ли регрессии).

Как известно из курса математического анализа, для того чтобы най­ти экстремум функции нескольких переменных, надо вычислить частные производные первого порядка по каждому из параметров и приравнять их к нулю.

Обозначив b i с соответствующими индексами оценки коэффициентов модели β i , i=0,m, имеет функцию m+1 аргумента.

После элементарных преобразований приходим к системе линейных нормальных уравнений для нахождения оценок параметров линейного уравнения множественной регрессии.

Полученная система нормальных уравнений является квадратной, т. е. количество уравнений равняется количеству неизвестных переменных, поэтому решение системы можно найти с помощью метода Крамера или метода Гаусса,

Решением системы нормальных уравнений в матричной форме будет вектор оценок.

На основе линейного уравнения множественной регрессии могут быть найдены частные уравнения регрессии, т. е. уравнения регрессии, которые связывают результативный признак с соответствующим фактором х i при закреплении остальных факторов на среднем уровне.

При подстановке в эти уравнения средних значений соответствую­щих факторов они принимают вид парных уравнений линейной регрессии.

В отличие от парной регрессии, частные уравнения регрессии харак­теризуют изолированное влияние фактора на результат, ибо другие факто­ры закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности:

где b i - коэффициент регрессии для фактора x i ; в уравнении множествен­ной регрессии,

у х1 хm - частное уравнение регрессии.

Наряду с частными коэффициентами эластичности могут быть най­дены средние по совокупности показатели эластичности. которые показывают, на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%. Средние показатели эластичности можно сравнивать друг с другом и соответственно ранжировать факторы по силе из воздействия на результат.

2. Обобщенная линейная модель множественной регрессии

Коренное отличие обобщенной модели от классической состоит только в виде ковариационной квадратной матрицы вектора возмущений: вместо матрицы Σ ε = σ 2 E n для классической модели имеем матрицу Σ ε = Ω для обобщенной. Последняя имеет произвольные значения ковариаций и дисперсий. Например, ковариационные матрицы классической и обобщенной моделей для двух наблюдений (п=2) в общем случае будут иметь вид:

Формально обобщенная линейная модель множественной регрессии (ОЛММР) в матричной форме имеет вид:

Y = Xβ + ε (1)

и описывается системой условий:

1. ε – случайный вектор возмущений с размерностью n; X -неслучайная матрица значений объясняющих переменных (матрица плана) с размерностью nх(р+1); напомним, что 1-й столбец этой матрицы состоит из пединиц;

2. M(ε) = 0 n – математическое ожидание вектора возмущений равно ноль-вектору;

3. Σ ε = M(εε’) = Ω, где Ω – положительно определенная квадратная матрица; заметим, что произведение векторов ε‘ε дает скаляр, а произведение векторов εε’ дает матрицу размерностью nxn;

4. Ранг матрицы X равен р+1, который меньше n; напомним, что р+1 - число объясняющих переменных в модели (вместе с фиктивной переменной), n - число наблюдений за результирующей и объясняющими переменными.

Следствие 1. Оценка параметров модели (1) обычным МНК

b = (X’X) -1 X’Y (2)

является несмещенной и состоятельной, но неэффективной (неоптимальной в смысле теоремы Гаусса-Маркова). Для получения эффективной оценки нужно использовать обобщенный метод наименьших квадратов.

Цель : необходимо научиться определять параметры уравнения множественной линейной регрессии, используя ме­тод наименьших квадратов (МНК), рассчитывать коэффициент множественной корреляции.

Ключевые слова : линейная модель множественной регрессии, матрица парных коэффициентов корреляции, коэффициент множественной детерминации, индекс корреляции.

План лекции:

1. Классическая нормальная линейная модель множественной регрессии.

2. Оценка параметров линейной модели множественной регрессии.

3. Множественная и частная корреляция.

1.Классическая нормальная линейная модель множественной регрессии.

Экономические явления, как правило, определяются большим числом одновременно действующих факторов. В качестве примера такой связи можно рассматривать зависимость доходности финансовых активов от следующих факторов: темпов прироста ВВП, уровня процентных ставок, уровня инфляции и уровня цен на нефть.

В связи с этим возникает задача исследования зависимости одной зависимой переменной у от нескольких объясняющих факторных переменных х 1 , х 2 ,…, х n , оказывающих на нее влияние. Эта задача решается с помощью множественного регрессионного анализа .

Как и в парной зависимости, используются разные виды уравнений множественной регрессии: линейные и нелинейные.

Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.

В линейной множественной регрессии параметры при количественной объясняющей переменной интерпретируется как среднее изменение результирующей переменной при единичном изменении самой объясняющей переменной и неизменных значениях остальных независимых переменных.

Пример. Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс.тг.

х 1 – среднемесячный доход на одного члена семьи, тыс.тг.

х 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс.тг. расходы на питание возрастут в среднем на 350 тг. при том же размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же доходах предполагает дополнительный рост расходов на питание на 730 тг.

В степенной функции коэффициенты b j являются коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменяется результат с изменением соответствующего фактора на 1% при неизменности действия других факторов.

Пример. Предположим, что при исследовании спроса на мясо получено уравнение

,

где у – количество спроса на мясо,


х 1 – цена,

х 2 – доход.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса в среднем на 2,63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1,11%.

где b 0 , b 1 ,…,b k – параметры модели, а ε – случайный член, называется классической нормальной линейной регрессионной моделью , если выполняются следующие условия (называемые условиями Гаусса-Маркова):

1. Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю, т.е. .

2. Дисперсия случайного члена должна быть постоянной для всех наблюдений, т.е. .

3. Случайные члены должны быть статистически независимы (некоррелированы) между собой, .

4. - есть нормально распределенная случайная величина.

2.Оценка параметров линейной модели множественной регрессии.

Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов. При его применении строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии.

Так, для уравнения система нормальных уравнений составит:

Ее решение может быть осуществлено методом Крамера:

,

где ∆ - определитель системы,

Частные определители.

,

а получаются путем замены соответствующего столбца определителя системы столбцом свободных членов.

Рассмотрим линейную модель зависимости результативного признака у от двух факторных признаков и . Эта модель имеет вид:

Для нахождения параметров и решается система нормальных уравнений:

3.Множественная и частная корреляция.

Многофакторная система требует множество показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей факторными признаками является матрица парных коэффициентов корреляции, которые определяются по формуле:

На основе парных коэффициентов корреляции вычисляется наиболее общий показатель тесноты связи всех входящих в уравнение регрессии факторов с результирующим признаком – коэффициент множественной детерминации как частное от деления определителя матрицы на опрделитель матрицы ∆: , где

;

.

Этим способом можно определить коэффициент детерминации, не вычисляя расчетных значений результативного признака для всех единиц совокупности, если совокупность состоит из сотен и тысяч единиц.

Классический метод наименьших квадратов (МНК) для модели множественной регрессии. Свойства оценок МНК для модели множественной регрессии и показатели качества подбора регрессии: коэффициент множественной корреляции, коэффициенты частной корреляции, коэффициент множественной детерминации

Мультиколлинœеарность факторов. Признаки мультиколлинœеарности и способы ее устранения. Гомоскедастичность и гетероскедастичность остатков. Графический метод обнаружения гетероскедастичности. Причины и последствия гетероскедастичности.

МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

На любой экономический показатель чаще всœего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и в ряде других вопросов экономики. Сегодня множественная регрессия – один из наиболее распространенных методов в эконометрике. Основной целью множественной регрессии является построение модели с большим числом факторов, а также определœение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель.

Множественный регрессионный анализ является развитием парного регрессионного анализа в случаях, когда зависимая переменная связана более чем с одной независимой переменной. Большая часть анализа является непосредственным расширением парной регрессионной модели, но здесь также появляются и некоторые новые проблемы, из которых следует выделить две. Первая проблема касается исследования влияния конкретной независимой переменной на зависимую переменную, а также разграничения её воздействия и воздействий других независимых переменных. Второй важной проблемой является спецификация модели, которая состоит в том, что крайне важно ответить на вопрос, какие факторы следует включить в регрессию (1), а какие – исключить из неё.

Самой употребляемой и наиболее простой из моделœей множественной регрессии является линœейная модель множественной регрессии:

Параметр α принято называть свободным членом и определяет значение y в случае, когда всœе объясняющие переменные равны нулю. При этом, как и в случае парной регрессии, факторы по своему экономическому содержанию часто не могут принимать нулевых значений, и значение свободного члена не имеет экономического смысла. При этом, в отличие от парной регрессии, значение каждого регрессионного коэффициента равно среднему изменению y при увеличении x j на одну единицу лишь при условии, что всœе остальные факторы остались неизменными. Величина ε представляет собой случайную ошибку регрессионной зависимости.

Получение оценок параметров уравнения регрессии (2) – одна из важнейших задач множественного регрессионного анализа. Самым распространенным методом решения этой задачи является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной y от её значений , получаемых по уравнению регрессии.

Пусть имеется n наблюдений объясняющих переменных и соответствующих им значений результативного признака:

Для однозначного определœения значений параметров уравнения (4) объём выборки n должен быть не меньше количества параметров, ᴛ.ᴇ. . В противном случае значения параметров не бывают определœены однозначно. В случае если n=p +1, оценки параметров рассчитываются единственным образом без МНК простой подстановкой значений (5) в выражение (4). Получается система (p +1) уравнений с таким же количеством неизвестных, которая решается любым способом, применяемым к системам линœейных алгебраических уравнений (СЛАУ). При этом с точки зрения статистического подхода такое решение задачи является ненадежным, поскольку измеренные значения переменных (5) содержат различные виды погрешностей. По этой причине для получения надежных оценок параметров уравнения (4) объём выборки должен значительно превышать количество определяемых по нему параметров. Практически, как было сказано ранее, объём выборки должен превышать количество параметров при x j в уравнении (4) в 6-7 раз.

Линейная модель множественной регрессии - понятие и виды. Классификация и особенности категории "Линейная модель множественной регрессии" 2017, 2018.

      Оценка параметров модели уравнения множественной регрессии

В реальных ситуациях поведение зависимой переменной невозможно объяснить только с помощью одной зависимой переменной. Лучшее объяснение обычно дают несколько независимых переменных. Регрессионная модель, включающая несколько независимых переменных, называется множественной регрессией. Идея вывода коэффициентов множественной регрессии сходна с парной, но обычное алгебраическое их представление и вывод становятся весьма громоздкими. Для современных вычислительных алгоритмов и наглядного представления действий с уравнением множественной регрессии используется матричная алгебра. Матричная алгебра делает возможным представление операций над матрицами аналогичным операциям над отдельными числами и, тем самым определяет свойства регрессии в ясных и сжатых терминах.

Пусть имеется набор из n наблюдений с зависимой переменной Y , k объясняющими переменными X 1 , X 2 ,..., X k . Можно записать уравнение множественной регрессии следующим образом:

В терминах массива исходных данных это выглядит так:

=
(3.2).

Коэффициенты и параметры распределения  неизвестны. Наша задача состоит в получении этих неизвестных. Уравнения, входящие в (3.2), в матричной форме имеют вид:

Y = X + , (3.3)

где Y – вектор вида (y 1 ,y 2 , … ,y n) t

X – матрица, первый столбец которой составляют n единиц, а последующие k столбцов x ij , i = 1,n;

 - вектор коэффициентов множественной регрессии;

 - вектор случайной составляющей.

Чтобы продвинуться к цели оценивания вектора коэффициентов , необходимо принять несколько предположений относительно того, как генерируются наблюдения, содержащиеся в (3.1):

E () = 0 ; (3.а)

E ( ) = 2 I n ; (3.б)

X – множество фиксированных чисел; (3.в)

 (X ) = k < n . (3.г)

Первая гипотеза означает, что E ( i ) = 0 для всех i , то есть переменные i имеют нулевую среднюю. Предположение (3.б) – компактная запись второй очень важной гипотезы. Так как – вектор-столбец размерности n 1, а  – вектор-строка, произведение  – симметрическая матрица порядка n и

E () E ( 1 2 ) ... E ( 1 n ) 2 0 ... 0

E ( ) = E ( 2 1 ) E () ... E ( 2 n ) = 0 2 ... 0

E ( n 1 ) E ( n 2 ) ... E () 0 0 ... 2

Элементы, стоящие на главной диагонали, свидетельствуют о том, что E( i 2 ) = 2 для всех i . Это означает, что все i имеют постоянную дисперсию 2 – свойство, в связи с которым говорят о гомоскедастичности. Элементы, не стоящие на главной диагонали, дают нам E( t t+s ) = 0 для s  0, так что значения i попарно некоррелированы. Гипотеза (3.в), в силу которой матрица X образована из фиксированных (неслучайных) чисел, означает, что в повторяющихся выборочных наблюдениях единственным источником случайных возмущений вектора Y являются случайные возмущения вектора , и поэтому свойства наших оценок и критериев обусловлены матрицей наблюдений X . Последнее предположение относительно матрицы X , ранг которой принимается равным k , означает, что число наблюдений превышает число параметров (иначе невозможна оценка этих параметров), и что не существует строгой зависимости между объясняющими переменными. Это соглашение простирается на все переменные X j , включая переменную X 0 , значение которой всегда равно единице, что соответствует первому столбцу матрицы X .

Оценка регрессионной модели с коэффициентами b 0 , b 1 ,…,b k , которые являются оценками неизвестных параметров 0 , 1 ,…, k и наблюдаемыми ошибками e , которые являются оценками ненаблюдаемых , может быть записана в матричной форме следующим образом


(3.4).

При использовании правил матричного сложения и умноженияотношения между возможно большими массивами чисел могут быть записаны несколькими символами. Используя правило транспонирования:A = транспонированной A , мы можем представить ряд других результатов. Система нормальных уравнений (для регрессии с любым числом переменных и наблюдений) в матричном формате записывается так:

Х Хb = Х Y (3.5).

Используя правило получения обратной матрицы: A -1 = инверсия A, мы можем решить систему нормальных уравнений путем перемножения каждой стороны уравнения (3.5) с матрицей Х) -1 :

Х) -1 Х)b = (Х Х) -1 X Y

Ib = (Х Х) -1 X Y

Где I – матрица идентификации (единичная матрица), являющаяся результатом умножения матрицы на обратную. Поскольку Ib=b , мы получаем решение нормальных уравнений в терминах метода наименьших квадратов для оценки вектора b :

b = (Х Х) -1 X Y (3.6).

Отсюда, для любого числа переменных и значений данных, мы получаем вектор параметров оценки, транспонирование которых есть b 0 , b 1 ,…,b k, как результат матричных операций над уравнением (3.6).

Представим теперь и другие результаты. Предсказанное значение Y, которое мы обозначаем как , корреспондирует с наблюдаемыми значениями Y как:
(3.7).

Поскольку b = (Х Х) -1 X Y , то мы можем записать подогнанные значения в терминах трансформации наблюдаемых значений:

(3.8).

Обозначив
, можем записать
.

Все матричные вычисления осуществляются в пакетах программ по регрессионному анализу.

Матрица ковариации коэффициентов оценки b задана как:

, это следует из того, что

Поскольку неизвестно и оценивается МНК, то мы имеем оценку ковариации матрицыb как:
(3.9).

Если мы обозначим матрицу С как
, то оценка стандартной ошибки каждогоb i есть

(3.10),

где С ii – диагональ матрицы.

      Спецификация модели. Ошибки спецификации

Журнал «Quarterly Review of Economics and Business» приводит данные о вариации дохода кредитных организаций США за период 25 лет в зависимости от изменений годовой ставки по сберегательным депозитам и числа кредитных учреждений. Логично предположить, что, при прочих равных условиях, предельный доход будет положительно связан с процентной ставкой по депозиту и отрицательно с числом кредитных учреждений. Построим модель следующего вида:

,

–прибыль кредитных организаций (в процентах);

–чистый доход на один доллар депозита;

–число кредитных учреждений.

Исходные данные для модели:

Анализ данных начинаем с расчета дескриптивных статистик:

Таблица 3.1. Дескриптивныестатистики

Сравнивая значения средних величин и стандартных отклонений, находим коэффициент вариации, значения которого свидетельствуют о том, что уровень варьирования признаков находится в допустимых пределах (< 0,35). Значения коэффициентов асимметрии и эксцесса указывают на отсутствие значимой скошенности и остро-(плоско-) вершинности фактического распределения признаков по сравнению с их нормальным распределением. По результатам анализа дескриптивных статистик можно сделать вывод, что совокупность признаков – однородна и для её изучения можно использовать метод наименьших квадратов (МНК) и вероятностные методы оценки статистических гипотез.

Перед построением модели множественной регрессии рассчитаем значения линейных коэффициентов парной корреляции. Они представлены в матрице парных коэффициентов (таблица 3.2) и определяют тесноту парных зависимостей анализируемыми между переменными.

Таблица 3.2. Коэффициенты парной линейной корреляции Пирсона

В скобках: Prob > |R| under Ho: Rho=0 / N = 25

Коэффициент корреляции между исвидетельствует о значительной и статистически существенной обратной связи между прибылью кредитных учреждений, годовой ставкой по депозитам и числом кредитных учреждений. Знак коэффициента корреляции между прибылью и ставкой по депозиту имеет отрицательный знак, что противоречит нашим первоначальным предположениям, связь между годовой ставкой по депозитам и числом кредитных учреждений – положительная и высокая.

Если мы обратимся к исходным данным, то увидим, что в течение исследуемого периода число кредитных учреждений возрастало, что могло привести к росту конкуренции и увеличению предельной ставки до такого уровня, который и повлек за собой снижение прибыли.

Приведенные в таблице 3.3 линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии.

Таблица 3.3. Коэффициенты частной корреляции

В скобках: Prob > |R| under Ho: Rho=0 / N = 10

Коэффициенты частной корреляции дают более точную характеристику тесноты зависимости двух признаков, чем коэффициенты парной корреляции, так как «очищают» парную зависимость от взаимодействия данной пары переменных с другими переменными, представленными в модели. Наиболее тесно связаны и,
. Другие взаимосвязи существенно слабее. При сравнении коэффициентов парной и частной корреляции видно, что из-за влияния межфакторной зависимости междуипроисходит некоторое завышение оценки тесноты связи между переменными.

Результаты построения уравнения множественной регрессии представлены в таблице 3.4.

Таблица 3.4. Результаты построения модели множественной регрессии

Независимые переменные

Коэффициенты

Стандартные ошибки

t - статистики

Вероятность случайного значения

Константа

x 1

x 2

R 2 = 0,87

R 2 adj =0,85

F = 70,66

Prob > F = 0,0001

Уравнение имеет вид:

y = 1,5645+ 0,2372x 1 - 0,00021x 2.

Интерпретация коэффициентов регрессии следующая:

оценивает агрегированное влияние прочих (кроме учтенных в модели х 1 и х 2 ) факторов на результат y ;

и указывают на сколько единиц изменитсяy при изменении х 1 и х 2 на единицу их значений. Для заданного числа кредитных учреждений, увеличение на 1% годовой ставки по депозитам ведет к ожидаемому увеличению на 0,237% в годовом доходе этих учреждений. При заданном уровне годового дохода на один доллар депозита, каждое новое кредитное учреждение снижает норму прибыли для всех на 0,0002%.

Значения стандартной ошибки параметров представлены в графе 3 таблицы 3.4: Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Их значения используются для расчетаt -критерия Стьюдента (графа 4)

19,705;
=4,269;
=-7,772.

Если значения t -критерия больше 2, то можно сделать вывод о существенности влияния данного значения параметра, которое формируется под влиянием неслучайных причин.

Зачастую интерпретация результатов регрессии более наглядна, если произведен расчет частных коэффициентов эластичности. Частные коэффициенты эластичности
показывают, на сколько процентов от значения своей средней
изменяется результат при изменении фактораx j на 1% от своей средней
и при фиксированном воздействии наy прочих факторов, включенных в уравнение регрессии. Для линейной зависимости
, гдекоэффициент регрессии прив уравнении множественной регрессии. Здесь

Нескорректированный множественный коэффициент детерминации
оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. В нашем примере эта доля составляет 86,53% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов. Иными словами, на весьма тесную связь факторов с результатом.

Скорректированный
(гдеn – число наблюдений, m – число переменных) определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов в модели и поэтому может сравниваться по разныммоделям с разным числом факторов. Оба коэффициента указывают на весьма высокую детерминированность результата y в модели факторами x 1 и x 2 .

Для проведения дисперсионного анализа и расчета фактического значения F -критерия заполним таблицу результатов дисперсионного анализа, общий вид которой:

Сумма квадратов

Число степеней свободы

Дисперсия

F-критерий

За счет регрессии

С факт.

(SSR )


(MSR)

Остаточная

С ост.

(SSE )

(MSE)

С общ.

(SST )

n -1

Таблица 3.5. Дисперсионный анализ модели множественной регрессии

Колеблемость результативного признака

Сумма квадратов

Число степеней свободы

Дисперсия

F-критерий

За счет регрессии

Остаточная

Оценку надежности уравнения регрессии в целом, его параметров и показателя тесноты связи
даетF -критерий Фишера:

Вероятность случайного значения F - критерия составляет 0,0001, что значительно меньше 0,05. Следовательно, полученное значение неслучайно, оно сформировалось под влиянием существенных факторов. То есть подтверждается статистическая значимость всего уравнения, его параметров и показателя тесноты связи – коэффициента множественной корреляции.

Прогноз по модели множественной регрессии осуществляется по тому же принципу, что и для парной регрессии. Для получения прогнозных значений мы подставляем значения х i в уравнение для получения значения. Предположим, что мы хотим узнать ожидаемую норму прибыли, при условии, что годовая ставка депозита составила 3,97%, а число кредитных учреждений – 7115:

Качество прогноза – неплохое, поскольку в исходных данных таким значениям независимых переменных соответствует значение равное 0,70. Мы так же можем вычислить интервал прогноза как
- доверительный интервал для ожидаемого значенияпри заданных значениях независимых переменных:

где MSE – остаточная дисперсия, а стандартная ошибка
для случая нескольких независимых переменных имеет достаточно сложное выражение, которое мы здесь не приводим.
доверительный интервал для значенияпри средних значениях независимых переменных имеет вид:

Большинство пакетов программ рассчитывают доверительные интервалы.

      Гетероскедакстичность

Один из основных методов проверки качества подгонки линии регрессии по отношению к эмпирическим данным – анализ остатков модели.

Остатки или оценка ошибки регрессии могут быть определены как разница между наблюдаемыми y i и предсказанными значениями y i зависимой переменной для заданных значений x i , то есть
. При построении регрессионной модели мы предполагаем, что остатки её - некоррелированные случайные величины, подчиняющиеся нормальному распределению со средней равной нулю и постоянной дисперсией .

Анализ остатков позволяет выяснить:

1. Подтверждается или нет предположение о нормальности?

2. Является ли дисперсия остатков постоянной величиной?

3. Является ли распределение данных вокруг линии регрессии равномерным?

Кроме того, важным моментом анализа, является проверка того - есть ли в модели пропущенные переменные, которые должны быть включены в модель.

Для данных, упорядоченных во времени, анализ остатков может обнаружить имеет ли факт упорядочения влияние на модель, если да, то переменная, задающая временной порядок должна быть добавлена в модель.

И окончательно, анализ остатков обнаруживает верность предположения о некоррелированности остатков.

Самый простой способ анализа остатков – графический. В этом случае на оси Y откладываются значения остатков. Обычно используются, так называемые, стандартизованные (стандартные) остатки:

, (3.11),

где
,

а

В пакетах прикладных программ всегда предусмотрена процедура расчета и тестирования остатков и печати графиков остатков. Рассмотрим наиболее простые из них.

Предположение о гомоскедастичности можно проверить с помощью графика, на оси ординат которого откладывают значения стандартизованных остатков, а на оси абсцисс – значения Х. Рассмотрим гипотетический пример:

Модель с гетероскедастичностью Модель с гомоскедастичностью

Мы видим, что с увеличением значений Х увеличивается вариация остатков, то есть мы наблюдаем эффект гетероскедастичности, дефицит гомогенности (однородности) в вариации Y для каждого уровня. На графике определяем возрастают или убывают Х или Y при возрастании или убывании остатков. Если график не обнаруживает зависимости между и Х, то условие гомоскедастичности выполняется.

Если условие гомоскедастичности не выполняется, то модель не годится для прогноза. Надо использовать взвешенный метод наименьших квадратов или ряд других методов, которые освещаются в более продвинутых курсах статистики и эконометрики, или преобразовывать данные.

График остатков может помочь и определить есть ли в модели пропущенные переменные. Например, мы собрали данные о потреблении мяса за 20 лет - Y и оцениваем зависимость этого потребления от душевых доходов населения Х 1 и региона проживания Х 2 . Данные упорядочены во времени. После того как построена модель, полезно построить график остатков относительно временных периодов.

Если график обнаруживает наличие тенденции в распределении остатков во времени, то в модель необходимо включить объясняющую переменную t. в дополнение к Х 1 и Х 2 . Это же относится и к любым другим переменным. Если есть тренд в графике остатков, то и переменная должна быть включена в модель наряду с другими уже включенными переменными.

График остатков позволяет определить отклонения от линейности в модели. Если взаимосвязь между Х и Y носит нелинейный характер, то параметры уравнения регрессии будут указывать на плохое качество подгонки. В таком случае остатки будут вначале большими и отрицательными, затем уменьшатся, а потом станут положительными и случайными. Они указывают на криволинейность и график остатков будет иметь вид:

Ситуация может быть исправлена добавлением в модель Х 2 .

Предположение о нормальности так же может быть проверено с помощью анализа остатков. Для этого по значениям стандартных остатков строится гистограмм частот. Если линия, проведенная через вершины многоугольника, напоминает кривую нормального распределения, то предположение о нормальности подтверждается.

      Мультиколлинеарность, способы оценки и устранения

Для того, чтобы множественный регрессионный анализ, основанный на МНК, давал наилучшие результаты мы предполагаем, что значения Х -ов не являются случайными величинами и чтоx i в модели множественной регрессии не коррелированны. То есть каждая переменная содержит уникальную информацию оY , которая не содержится в другихx i . Когда такая идеальная ситуация имеет место, то мультиколлинеарность отсутствует. Полная коллинеарность появляется в случае, если одна изХ может быть точно выражена в терминах другой переменнойХ для всех элементов набора данных. На практике большинство ситуаций находится между этими двумя крайними случаями. Как правило, существует некоторая степень коллинеарности между независимыми переменными. Мера коллинеарности между двумя переменными есть корреляция между ними.

Оставим в стороне предположение о том, что x i не случайные величины и измерим корреляцию между ними. Когда две независимые переменные связаны высокой корреляцией, то мы говорим об эффекте мультиколлинеарности в процедуре регрессионной оценки параметров. В случае очень высокой коллинеарности процедура регрессионного анализа становится неэффективной, большинство пакетов ППП в этом случае выдают предупреждение или прекращают процедуру. Даже, если мы получим в таком ситуации оценки регрессионных коэффициентов, то их вариация (стандартная ошибка) будут очень малы.

Простое объяснение мультиколлинеарности можно дать в матричных терминах. В случае полной мультиколлинеарности, колонки матрицы х -ов – линейно зависимы. Полная мультиколлинеарность означает, что по крайней мере две из переменных х i зависят друг от друга. Из уравнения () видно, что это означает, что колонки матрицы зависимы. Следовательно, матрица
так же мультиколлинеарна и не может быть инвертирована (её детерминант равен нулю), то есть мы не можем вычислить
и не можем получить вектор параметров оценкиb . В случае, когда мультиколлинеарность присутствует, но не полная, то матрица – обращаемая, но не стабильная.

Причинами мультиколлинеарности могут быть:

1) Способ сбора данных и отбора переменных в модель без учета их смысла и природы (учета возможных взаимосвязей между ними). Например, с помощью регрессии мы оцениваем влияние на размер жилья Y доходов семьи Х 1 и размера семьи Х 2 . Если мы соберем данные только среди семей большого размера и высокими доходами и не включим в выборку семьи малого размера и с небольшими доходами, то в результате получим модель с эффектом мультиколлинеарности. Решением проблемы в этом случае будет улучшение схемы выборки.

В случае, если переменные взаимодополняют друг друга, подгонка выборки не поможет. Решением проблемы здесь может быть исключение одной из переменных модели.

2) Другая причина мультиколлинеарности может состоять в высокой мощности X i . Например, для линеаризации модели мы вводим дополнительный термин X 2 в модель, которая содержит X i . Если разброс значений Х незначителен, то мы получим высокую мультиколлинеарность.

Каким бы ни был источник мультиколлинеарности, важно избежать его появления.

Мы уже говорили, что компьютерные пакеты обычно выдают предупреждение о мультиколлинеарности или даже останавливают вычисления. В случае не столь высокой коллинеарности компьютер выдаст нам регрессионное уравнение. Но вариация оценок будет близка к нулю. Существуют два основных метода, доступных во всех пакетах, которые помогут нам решить эту проблему.

    Вычисление матрицы коэффициентов корреляции для всех независимых переменных. Например, матрица коэффициентов корреляции между переменными в примере из параграфа 3.2 (таблица 3.2) указывает на то, что коэффициент корреляции между х 1 и х 2 очень велик, то есть эти переменные содержат много идентичной информации о y и, следовательно, коллинеарны.

Надо заметить, что не существует единого правила, согласно которому есть некоторое пороговое значение коэффициента корреляции, после которого высокая корреляция может оказать отрицательный эффект на качество регрессии.

    Мультиколлинеарность может иметь причиной более сложные взаимосвязи между переменными нежели парные корреляции между независимыми переменными. Это влечет за собой использование второго метода определения мультиколлинеарности, который называется “фактор инфляции вариации”.

Степень мультиколлинеарности, представляемая в регрессии переменной , когда переменные,,…,включены в регрессию, есть функция множественной корреляции междуи другими переменными,,…,. Предположим, что мы рассчитаем регрессию не поy , а по , как зависимой переменной, и оставшимисякак независимыми. Из этой регрессии мы получимR 2 , значение которого – мера мультиколлинеарности привносимой переменной . Повторим, что основная проблема мультиколлинеарности – обесценивание дисперсии оценок коэффициентов регрессии. Для измерения эффекта мультиколлинеарности используется показатель VIF “variation inflation factor”, ассоциируемый с переменной:

(3.12),

где – значение коэффициента множественной корреляции, полученное для регрессоракак зависимой переменной и остальных переменных.

Можно показать, что VIF переменной равен отношению дисперсии коэффициентаb h в регрессии с y как зависимой переменной и дисперсией оценки b h в регрессии где не коррелированна с другими переменными. VIF – это фактор инфляции дисперсии оценки по сравнению с той вариацией, которая была бы, если быне имел коллинеарности с другими x переменными в регрессии. Графически это можно изобразить так:

Как видно из рисунка 7, когда R 2 от увеличивается по отношению к другим переменным от 0,9 до 1 VIF становится очень большим. Значение VIF, например, равное 6 означает, что дисперсия регрессионных коэфиициентовb h в 6 раз больше той, что должна была бы быть при полном отсутствии коллинеарности. Исследователи используют VIF = 10 как критическое правило для определения является ли корреляция между независимыми переменными слишком большой. В примере из параграфа 3.2 значение VIF = 8,732.

Как еще можно обнаружить эффект мультиколлинеарности без расчета корреляционной матрицы и VIF.

    Стандартная ошибка в регрессионных коэффициентах близка к нулю.

    Мощность коэффициента регрессии не та, что Вы ожидали.

    Знаки коэффициентов регрессии противоположны ожидаемым.

    Добавление или удаление наблюдений в модель сильно изменяет значения оценок.

    В некоторых ситуациях получается, что F – cущественно, а t – нет.

Насколько отрицательно сказывается эффект мультиколлинеарности на качестве модели? В дейсвительности проблема не столь страшна как кажется. Если мы используем уравнение для прогноза. То интерполяция результатов даст вполне надежные результаты. Эксторополяция приведет к значительным ошибкам. Здесь необходимы другие методы корректировки. Если мы хотим измерить влияние некоторых определенных перменных на Y, то здесь так же могут возникнуть проблемы.

Для решения проблемы мультиколлинеарности можно предпринять следующее:

    Удалить коллинеарные переменные. Это не всегда возможно в эконометрических моделях. В этом случае необходимо использовать другие методы оценки (обобщенный метод наименьших квадратов).

    Исправить выборку.

    Изменить переменные.

    Использовать гребневую регрессию.

      Гетероскедастичность, способы выявления и устранения

Если остатки модели имеют постоянную дисперсию, они называются гомоскедастичными, но если они непостоянны, то гетероскедастичными.

Если условие гомоскедастичности не выполняется, то надо использовать взвешенный метод наименьших квадратов или ряд других методов, которые освещаются в более продвинутых курсах статистики и эконометрики, или преобразовывать данные.

Например, нас интересуют факторы, влияющие на выпуск продукции на предприятиях определенной отрасли. Мы собрали данные о величине фактического выпуска, численности работников и стоимости основных фондов (основного капитала) предприятий. Предприятия различаются по величине и мы вправе ожидать, что для тех из них, объем выпускаемой продукции в которых выше, термин ошибки в рамках постулируемой модели будет так же в среднем больше, чем для малых предприятий. Следовательно, вариация ошибки не будет одинаковой для всех предприятий, она, скорее всего, будет возрастающей функцией от размера предприятия. В такой модели оценки не будут эффективными. Обычные процедуры построения доверительных интервалов, проверки гипотез для этих коэффициентов не будут надежными. Поэтому важно знать приемы определения гетероскедастичности.

Влияние гетероскедастичности на оценку интервала прогнозирования и проверку гипотезы заключается в том, что хотя коэффициенты не смещены, дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещены. Если смещение отрицательно, то стандартные ошибки оценки будут меньше, чем они должны быть, а критерий проверки будет больше, чем в реальности. Таким образом, мы можем сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот, если смещение положительно, то стандартные ошибки оценки будут больше, чем они должны быть, а критерии проверки – меньше. Значит, мы можем принять нулевую гипотезу о значимости коэффициента регрессии, в то время как она должна быть отклонена.

Обсудим формальную процедуру определения гетероскедастичности, когда условие постоянства дисперсии нарушено.

Предположим, что регрессионная модель связывает зависимую переменную и с k незавввисимыми переменными в наборе из n наблюдений. Пусть
- набор коэффициентов, полученных МНК и теоретическое значение переменной есть, остатки модели:
. Нуль-гипотеза состоит в том. что остатки имеют одинаковую дисперсию. Альтернативная гипотеза состоит в том, что их дисперсия зависит от ожидаемых значений:. Для проверки гипотезы проводим оценку линейной регрессии. в которой зависимая переменная есть квадрат ошибки, то есть, а независимая переменная – теоретическое значение. Пусть
- коэффициент детерминации в этой вспомогательной дисперсии. Тогда для заданного уровня значимости нуль-гипотеза отклоняется, если
больше чем, гдеесть критическое значение СВ
с уровнем значимости и одной степенью свободы.

В случае, если мы подтвердим гипотезу о том, что дисперсия ошибки регрессии не является постоянной величиной, то метод наименьших квадратов не приводит к наилучшей подгонке. Могут быть использованы различные способы подгонки, выбор альтернатив зависит от того, как дисперсия ошибки ведет себя с другими переменными. Чтобы решить проблему гетероскедастичности, нужно исследовать взаимосвязь между значением ошибки и переменными и трансформировать регрессионную модель так, чтобы она отражала эту взаимосвязь. Это может быть достигнуто посредством регрессии значений ошибок по различным формам функций переменной, которая приводит к гетероскедастичности.

Одна из возможностей устранения гетероскедастичности состоит в следующем. Предположим, что вероятность ошибки прямо пропорциональна квадрату ожидаемого значения зависимой переменной при заданных значениях независимой, так что

В этом случае можно использовать простую двухшаговую процедуру оценки параметров модели. На первом шаге модель оценивается при помощи МНК обычным способом и формируется набор значений . На втором шаге оценивается регрессионное уравнение следующего вида:

Где - ошибка дисперсии, которая будет постоянной. Это уравнение будет представлять регрессионную модель, к которой зависимая переменная -, а независимые -
. Затем коэффициенты оцениваются МНК.

Появление гетероскедастичности часто вызывается тем, что оценивается линейная регрессия, в то время как необходимо оценивать лог-линейную регрессию. Если обнаружена гетероскедастичность, то можно попытаться переоценить модель в логарифмической форме, особенно если содержательный аспект модели не противоречит этому. Особенно важно использование логарифмической формы, когда ощущается влияние наблюдений с большими значениями. Этот подход весьма полезен, в случае если изучаемые данные – временные ряды таких экономических переменных, как потребление, доходы, деньги, которые имеют тенденцию к экспоненциональному распределению во времени.

Рассмотрим другой подход, например,
, где X i – независимая переменная (или какая-либо функция независимой переменной), которая предположительно является причиной гетероскедастичности, а Н отражает степень взаимосвязи между ошибками и данной переменной, например, Х 2 или Х 1/n и т.д. Следовательно, дисперсия коэффициентов запишется:
. Отсюда, если H=1 , то мы трансформируем регрессионную модель к виду:
. Если Н=2, то есть дисперсия увеличивается в пропорции к квадрату рассматриваемой переменой Х, трансформация приобретает вид:
.

Разберем пример с проверкой гетероскедастичности в модели, построенной по данным примера из параграфа 3.2. Для визуального контроля гетероскедастичности построим график остатков и предсказанных значений .

Рис.8. График распределения остатков модели, построенной по данным примера

На первый взгляд график не обнаруживает наличия зависимости между значениями остатков модели и . Для более точной проверки рассчитаем регрессию, в которой остатки модели, возведенные в квадрат, - зависимая переменная, а- независимая:
. Значение стандартной ошибки оценки равно 0,00408,
=0,027, отсюда
=250,027=0,625. Табличное значение
=2,71. Таким образом, нуль-гипотеза, о том, что ошибка регрессионного уравнения имеет постоянную дисперсию, не отклоняется на 10% уровне значимости.

В современных компьютерных пакетах по регрессионному анализу предусмотрены специальные процедуры диагностики гетераскедастичности и её устранения.

Парная регрессия используется при моделировании, если влиянием других факторов, воздействующих на объект исследования можно пренебречь.

Например, при построении модели потребления того или иного товара от дохода, исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Однако, уверенности в справедливости данного утверждения нет.

Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента – метод, который используется в естественнонаучных исследованиях. Экономист лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство прочих условий для оценки влияния одного исследуемого фактора.

Как поступить в этом случае? Надо выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии.

Такого рода уравнения используется при изучении потребления.

Коэффициенты b j – частные производные у по факторами х i

При условии, что все остальные х i = const

Рассмотрим современную потребительскую функцию (впервые 30е годы предложил Кейнс Дж.М.) как модель вида С = f(y,P,M,Z)

c- потребление. у – доход

P – цена, индекс стоимости.

M – наличные деньги

Z – ликвидные активы

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства, в макроэкономических вопросах и других вопросах эконометрики.

В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике.

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого их них в отдельности, а также совокупное воздействие на моделируемый показатель.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Она включает в себя два круга вопросов:

1. Отбор факторов;

2. Выбор уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Требования к факторам, включаемым во множественную регрессию:

1. они должны быть количественно измеримы, если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости: районы должны быть проранжированы).

2. факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда R у x 1

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются интерпретируемыми.

В уравнение предполагается, что факторы х 1 и х 2 независимы друг от друга, r х1х2 = 0, тогда параметр b 1 измеряет силу влияния фактора х 1 на результат у при неизменном значении фактора х 2 . Если r х1х2 =1, то с изменением фактора х 1 фактор х 2 не может оставаться неизменным. Отсюда b 1 и b 2 нельзя интерпретировать как показатели раздельного влияния х 1 и х 2 и на у.

Пример, рассмотрим регрессию себестоимости единицы продукции у (руб.) от заработной платы работника х (руб.) и производительности труда z (ед. в час).

у = 22600 - 5x - 10z + e

коэффициент b 2 = -10, показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается на 10 руб. при постоянном уровне оплаты.

Вместе с тем параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной х обусловлено высокой корреляцией между х и z (r х z = 0,95). Поэтому роста заработной платы при неизменности производительности труда (не учитывая инфляции) быть не может.

Включенные во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строиться модель с набором р факторов, то для нее рассчитывается показатель детерминации R 2 , которая фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других неучтенных в модели факторов оценивается как 1-R 2 c соответствующей остаточной дисперсией S 2 .

При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшается.

R 2 p +1 ≥ R 2 p и S 2 p +1 ≤ S 2 p .

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включенный в анализ фактор x р+1 не улучшает модель и практически является лишним фактором.

Если для регрессии, включающей 5 факторов R 2 = 0,857, и включенный 6 дало R 2 = 0,858, то нецелесообразно включать в модель этот фактор.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической не значимости параметров регрессии по критерию t-Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости.

Отбор факторов производиться на основе теоретико-экономического анализа. Однако, он часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов осуществляется в две стадии:

на первой – подбирают факторы, исходя из сущности проблемы.

на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Коэффициенты интеркоррелиции (т.е. корреляция между объясняющими переменными) позволяют исключить из моделей дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если r xixj ≥0,7.

Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, т.е. r х ixj = 0, коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Рассмотрим матрицу парных коэффициентов корреляции при изучении зависимости у = f(x, z, v)

y x z V
Y
X 0,8
Z 0,7 0,8
V 0,6 0,5 0,2

Очевидно, факторы x и z дублируют друг друга. В анализ целесообразно включит фактор z, а не х, так как корреляция z с у слабее чем корреляция фактора х с у (r у z < r ух), но зато слабее межфакторная корреляция (r zv < r х v)

Поэтому в данном случае в уравнение множественной регрессии включает факторы z и v . По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Но наиболее трудности возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарности факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК. Если рассмотренная регрессия у = a + bx + cx + dv + e, то для расчета параметров, применяется МНК:

S y = S факт +S e

или
=
+

общая сумма = факторная + остаточная

Квадратов отклонений

В свою очередь, при независимости факторов друг от друга, выполнимо равенство:

S = S x +S z + S v

Суммы квадратов отклонения, обусловленных влиянием соответствующих факторов.

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующего:

· затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

· оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарных факторов будем использовать определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов была бы единичной.

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + e

Если же между факторами существует полная линейная зависимость, то:

Чем ближе к 0 определитель, тем сильнее межколлинеарность факторов и ненадежны результаты множественной регрессии. Чем ближе к 1, тем меньше мультиколлинеарность факторов.

Оценка значимости мультиколлинеарности факторов может быть проведена методами испытания гипотезы 0 независимости переменных H 0:

Доказано, что величина
имеет приближенное распределение с степенями свободы. Если фактически значение превосходит табличное (критическое) то гипотеза H 0 отклоняется. Это означает, что , недиагональные коэффициенты указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение R 2 к 1, тем сильнее проявляется мультиколлинеарность. Сравнивая между собой коэффициенты множественной детерминации и т.п.

Можно выделить переменные, ответственные за мультиколлинеарность, следовательно, решить проблему отбора факторов, оставляя в уравнения факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд походов преодоления сильной межфакторной корреляции. Самый простой путь устранения МК состоит в исключении из модели одного или несколько факторов.

Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Если y = f(x 1 , x 2 , x 3), то возможно построение следующего совмещенного уравнения:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + e.

Это уравнение включает взаимодействие первого порядка (взаимодействие двух факторов).

Возможно включение в уравнение взаимодействий и более высокого порядка, если будет доказано их статистически значимость по F-критерию

b 123 x 1 x 2 х 3 – взаимодействие второго порядка.

Если анализ совмещенного уравнения показал значимость только взаимодействия факторов х 1 и х 3 , то уравнение будет имеет вид:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 13 x 1 x 3 + e.

Взаимодействие факторов х 1 и х 3 означает, что на разных уровнях фактора х 3 влияние фактора х 1 на у будет неодинаково, т.е. оно зависит от значения фактора х 3 . На рис. 3.1 взаимодействие факторов представляет непараллельными линями связи с результатом у. И наоборот, параллельные линии влияние фактора х 1 на у при разных уровнях фактора х 3 означают отсутствие взаимодействия факторов х 1 и х 3 .

(х 3 =В 2)
(х 3 =В 1)
(х 3 =В 1)
(х 3 =В 2)
у
у
1
х 1
а
б
у
у
Х 1
Х 1

Рис 3.1. Графическая иллюстрация взаимодействия факторов.

а - х 1 влияет на у, причем это влияние одинаково при х 3 =В 1 , так и при х 3 =В 2 (одинаковый наклон линий регрессии), что означает отсутствие взаимодействия факторов х 1 и х 3 ;

б – с ростом х 1 результативный признак у возрастает при х 3 =В 1 , с ростом х 1 результативный признак у снижается при х 3 =В 2 . Между х 1 и х 3 существует взаимодействие.

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинации азота и фосфора).

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к устранениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

Пусть, например, рассматривается двухфакторная регрессия вида a + b 1 x 1 + b 2 x 2 , для которой x 1 и x 2 обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например х 2) рассматривается как зависимая переменная. Предположим, известно, что . Постановляя это уравнение в искомое вместо х 2 , получим:

Если , то разделив обе части равенства на , получаем уравнение вида:

,

которое представляет собой приведенную форму уравнения для определения результативного признака у. Это уравнение может быть представлено в виде:

К нему для оценки параметров может быть применен МНК.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Походы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно разным методикам. В зависимости от того, какая методика построение уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построение уравнения множественной регрессии :

· метод исключения;

· метод включения;

· шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты – отсев факторов из полного его отбора (метод исключение), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется процедура отсева фактора. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строит регрессии. Если это отношение нарушено, то число степеней свободы остаточной вариаций очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения.

Классическая линейная модель множественной регрессии (КЛММР):

где y – регрессанд; x i – регрессоры; u – случайная составляющая.

Модель множественной регрессии является обобщением модели парной регрессии на многомерный случай.

Независимые переменные (х) предполагаются не случайными (детерминированными) величинами.

Переменная х 1 = x i 1 = 1 называется вспомогательной переменной для свободного члена и еще в уравнениях она называется параметром сдвиги.

«y» и «u» в (2) являются реализациями случайной величины.

Называется также параметром сдвига.

Для статистической оценки параметров регрессионной модели необходим набор (множество) данных наблюдений независимых и зависимых переменных. Данные могут быть представлены в виде пространственных данных или временных рядов наблюдений. Для каждого из таких наблюдений согласно линейной модели можно записать:

Векторно-матричная запись системы (3).

Введем следующие обозначения:

вектор-столбец независимой переменной (регрессанда)

размерность матрицы (n·1)

Матрица наблюдений независимых переменных (регрессоров):

размер (n×k)

Вектор-столбец параметров:

- матричная запись системы уравнений (3). Она проще и компактнее.

Сформируем предпосылки, которые необходимы при выводе уравнении для оценок параметров модели, изучения их свойств и тестирования качества модели. Эти предпосылки обобщают и дополняют предпосылки классической модели парной линейной регрессии (условия Гаусса – Маркова).

Предпосылка 1. независимые переменныене случайны и измеряются без ошибок. Это означает, что матрица наблюдений Х – детерминированная.

Предпосылка 2. (первое условие Гаусса – Маркова): Математическое ожидание случайной составляющей в каждом наблюдении равно нулю.

Предпосылка 3. (второе условие Гаусса – Маркова): теоретическая дисперсия случайной составляющей одинакова для всех наблюдений.

(Это гомоскедастичность)

Предпосылка 4. (третье условие Гаусса – Маркова): случайные составляющие модели не коррелированны для различных наблюдений. Это означает, что теоретическая ковариация

Предпосылки (3) и (4) удобно записать, используя векторные обозначения:

матрица - симметричная матрица. - единичная матрица размерности n, верхний индекс Т – транспонирование.

Матрица называется теоретической матрицей ковариаций (или ковариационной матрицей).

Предпосылка 5. (четвертое условие Гаусса – Маркова): случайная составляющая и объясняющие переменные не коррелированны (для модели нормальной регрессии это условие означает и независимость). В предположении, что объясняющие переменные не случайные, эта предпосылка в классической регрессионной модели всегда выполняется.

Предпосылка 6 . коэффициенты регрессии – постоянные величины.

Предпосылка 7 . уравнение регрессии идентифицируемо. Это означает, что параметры уравнения в принципе оцениваемы, или решение задачи оценивания параметров существует и единственно.

Предпосылка 8 . регрессоры не коллинеарны. В таком случае матрица наблюдений регрессоров должна быть полного ранга. (ее столбцы должны быть линейно независимы). Данная предпосылка тесно связана с предыдущей, так как при применении для оценивания коэффициентов МНК ее выполнение гарантирует идентифицируемость модели (если количество наблюдений больше количества оцениваемых параметров).

Предпосылка 9. Количество наблюдений больше количества оцениваемых параметров, т.е. n>k.

Все эти 1-9 предпосылки одинаково важны, и только при их выполнении можно применять классическую регрессионную модель на практике.

Предпосылка о нормальности случайной составляющей . При построении доверительных интервалов для коэффициентов модели и прогнозов зависимой переменной, проверки статистических гипотез относительно коэффициентов, разработке процедур для анализа адекватности (качества) модели в целом необходимо предположение о нормальном распределении случайной составляющей. С учетом этой предпосылки модель (1) называется классической многомерной линейной моделью регрессии.

Если предпосылки не выполняются, то необходимо строить так называемые обобщенные модели линейной регрессии. От того, насколько корректно (правильно) и осознанно используются возможности регрессионного анализа, зависит успех эконометрического моделирования, и, в конечном счете, обоснованность принимаемых решений.

Для построения уравнения множественной регрессии чаще используются следующие функции

1. линейная: .

2. степенная: .

3. экспоненциальная: .

4. гипербола:

В виду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при Х называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне.

Пример . Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс.руб.;

х 1 – месячный доход на одного члена семьи, тыс.руб.;

х 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при томже размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Параметр а - не имеет экономической интерпретации.

При изучении вопросов потребления коэффициенты регрессии рассматривают как характеристики предельной склонности к потреблению. Например, если функции потребления С t имеет вид:

С t = a+b 0 R t + b 1 R t -1 +e,

то потребление в период времени t зависит от дохода того же периода R t и от дохода предшествующего периода R t -1 . Соответственно коэффициент b 0 обычно называют краткосрочной предельной склонностью к потреблению. Общим эффектом возрастания как текущего, так и предыдущего дохода будет рост потребления на b= b 0 + b 1 . Коэффициент b рассматривается здесь как долгосрочная склонность к потреблению. Так как коэффициенты b 0 и b 1 >0, то долгосрочная склонность к потреблению должна превосходить краткосрочную b 0 . Например, за период 1905 – 1951 гг. (за исключением военных лет) М.Фридман построил для США следующую функцию потребления: С t = 53+0,58 R t +0,32 R t -1 с краткосрочной предельной склонностью к потреблению 0,58 и с долгосрочной склонностью к потреблению 0,9.

Функция потребления может рассматриваться также в зависимости от прошлых привычек потребления, т.е. от предыдущего уровня потребления

С t-1: С t = a+b 0 R t +b 1 С t-1 +e,

В этом уравнении параметр b 0 также характеризует краткосрочную предельную склонность к потреблению, т.е. влияние на потребление единичного роста доходов того же периода R t . Долгосрочную предельную склонность к потреблению здесь измеряет выражение b 0 /(1- b 1).

Так, если уравнение регрессии составило:

С t = 23,4+0,46 R t +0,20 С t -1 +e,

то краткосрочная склонность к потреблению равна 0,46, а долгосрочная – 0,575 (0,46/0,8).

В степенной функции
коэффициенты b j являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1% при неизменности действия других факторов. Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления.

Предположим, что при исследовании спроса на мясо получено уравнение:

где у – количество спрашиваемого мяса; х 1 – его цена; х 2 – доход.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса на мясо в среднем на 2.63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1.11%.

В производственных функциях вида:

где P – количество продукта, изготавливаемого с помощью m производственных факторов (F 1 , F 2 , ……F m).

b – параметр, являющийся эластичностью количества продукции по отношению к количеству соответствующих производственных факторов.

Экономический смысл имеют не только коэффициенты b каждого фактора, но и их сумма, т.е. сумма эластичностей: В = b 1 +b 2 +……+b m . Эта величина фиксирует обобщенную характеристику эластичности производства. Производственная функция имеет вид

где Р – выпуск продукции; F 1 – стоимость основных производственных фондов; F 2­ ­ - отработано человеко-дней; F 3 – затраты на производство.

Эластичность выпуска по отдельным факторам производства составляет в среднем 0,3% с ростом F 1 на 1% при неизменном уровне других факторов; 0,2% - с ростом F 2­ ­ на 1% также при неизменности других факторов производства и 0,5% с ростом F 3 на 1% при неизменном уровне факторов F 1 и F 2 . Для данного уравнения В = b 1 +b 2 +b 3 = 1. Следовательно, в целом с ростом каждого фактора производства на 1% коэффициент эластичности выпуска продукции составляет 1%, т.е. выпуск продукции увеличивается на 1%, что в микроэкономике соответствует постоянной отдаче на масштаб.

При практических расчетах не всегда . Она может быть как больше, так и меньше 1. В этом случае величина В фиксирует приближенную оценку эластичности выпуска с ростом каждого фактора производства на 1% в условиях увеличивающейся (В>1) или уменьшающейся (В<1) отдачи на масштаб.

Так, если
, то с ростом значений каждого фактора производства на 1% выпуск продукции в целом возрастает приблизительно на 1.2%.

При оценке параметров модели по МНК мерой (критерием) количества подгонки эмпирической регрессионной модели к наблюдаемой выборке служит сумма квадратов ошибок (остатков).

Где е = (e1,e2,…..e n) T ;

Для уравнения применили равенство: .

Скалярная функция;

Система нормальных уравнений (1) содержит k линейных уравнений относительно k неизвестных i = 1,2,3……k

= (2)

Перемножив (2) получим развернутую форму записи систем нормальных уравнений

Оценка коэффициентов

Стандартизированные коэффициенты регрессии, их интерпретация. Парные и частные коэффициенты корреляции. Множественный коэффициент корреляции. Множественный коэффициент корреляции и множественный коэффициент детерминации. Оценка надежности показателей корреляции.

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.

Так, для уравнения система нормальных уравнений составит:

Ее решение может быть осуществлено методом определителей:

, ,…, ,

где D – главный определитель системы;

Dа, Db 1 , …, Db p – частные определители.

а Dа, Db 1 , …, Db p получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Возможен и иной подход в определении параметров множественной регрессии, когда на основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе:

где - стандартизованные переменные , для которых среднее значение равно нулю , а среднее квадратическое отклонение равно единице: ;

Стандартизованные коэффициенты регрессии.

Применяя МНК к уравнению множественной регрессии в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных вида

Решая ее методом определителей, найдем параметры – стандартизованные коэффициенты регрессии (b-коэффициенты).

Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор х i изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии b I сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.

Пример. Пусть функция издержек производства у (тыс. руб.) характеризуется уравнением вида

где х 1 – основные производственные фонды;

х 2 – численность занятых в производстве.

Анализируя его, мы видим, что при той же занятости дополнительный рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение численности занятых на одного человека способствует при той же технической оснащенности предприятий росту затрат в среднем на 1,1 тыс. руб. Однако это не означает, что фактор х 1 оказывает более сильное влияние на издержки производства по сравнению с фактором х 2 . Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Предположим, оно выглядит так:

Это означает, что с ростом фактора х 1 на одну сигму при неизменной численности занятых затрат на продукцию увеличиваются в среднем на 0,5 сигмы. Так как b 1 < b 2 (0,5 < 0,8), то можно заключить, что большее влияние оказывает на производство продукции фактор х 2 , а не х 1 , как кажется из уравнения регрессии в натуральном масштабе.

В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции r xy . Подобно тому, как в парной зависимости коэффициент регрессии и корреляции связаны между собой, так и в множественной регрессии коэффициенты «чистой» регрессии b i связаны со стандартизованными коэффициентами регрессии b i , а именно:

(3.1)

Это позволяет от уравнения регрессии в стандартизованном масштабе

(3.2)

переход к уравнению регрессии в натуральном масштабе переменных.