Коэффициент индекс детерминации причинности. Свойства коэффициента детерминации

3.4. Проверка адекватности моделей множественной линейной регрессии

3.4.1. Статистические критерии проверки адекватности моделей множественной регрессии

Анализ адекватности модели является важным этапом эконометрического моделирования. Для проверки адекватности моделей множественной регрессии, также как и парной линейной регрессии используют коэффициент детерминации и его модификации, отражающие особенности множественной модели, а также процедуры проверки статистических гипотез и построения доверительных интервалов для оценок параметров и прогнозов зависимой переменной.

3.4.2. Коэффициент детерминации

Важным показателем, характеризующим качество эмпирической регрессионной функции (ее соответствия наблюдаемым данным), является коэффициент детерминации. Полную сумму квадратов отклонений зависимой переменной от ее выборочного среднего в модели множественной регрессии можно представить в виде

Ранее было отмечено, что добавление дополнительного регрессора, как правило, увеличивает значение обычного коэффициента детерминации. Этого не происходит, если использовать скорректированный коэффициент детерминации. Его изменение, вызванное добавлением регрессора, может быть как положительным, так и отрицательным и поэтому, ориентируясь на значение скорректированного коэффициента, можно более объективно оценить, целесообразно ли введение дополнительного регрессора при уменьшении степеней свободы (приводит ли это к более адекватной модели). Лучшей признается модель, для которой скорректированный коэффициент больше.

Пример 3.3.

Для модели примера 3.1. вычислим коэффициент детерминации и скорректированный коэффициент детерминации Тейла. Используя формулы () и (), соответственно получим:


Данный результат позволяет сделать заключение о достаточно высоком качестве построенной регрессионной модели.

Пример 3.4.

Вычислим коэффициент детерминации и скорректированный коэффициент детерминации Тейла для регрессии примера 3.2. Их значения равны


соответственно, что также позволяет сделать вывод о достаточно высоком качестве построенной модели.

Сравните результаты примеров 3.3, 3.4 с коэффициентами детерминации парных регрессий в примерах 2.4, 2.5. Сделайте выводы.

3.4.4. Построение доверительных интервалов для параметров регрессии и их линейных комбинаций

Построение доверительных интервалов как для отдельных коэффициентов регрессии так и для прогноза зависимой переменной является важнейшим этапом анализа регрессионной модели. Основные идеи, на которых базируются процедуры построения доверительных интервалов были рассмотрены в разделе (2.4.2 ) для случая парной линейной регрессии. Однако в многомерном случае появляются дополнительные задачи, в частности, построения интервалов и проверки гипотез для линейных комбинаций коэффициентов регрессии.

Для построения доверительных интервалов и проверки гипотез используются свойства t - статистики Стьюдента, которая имеет вид

где - оценка стандартного отклонения i- го коэффициента регрессии. В предположении, что случайная составляющая модели имеет нормальное распределение, случайная переменная t подчиняется центральному t - распределению Стьюдента с n - k степенями свободы. Для расчета t - статистики необходимо знать оценки стандартных отклонений или дисперсий оценок параметров модели, которые являются диагональными элементами оцененной матрицы ковариаций вектора оценок. Получим выражение для этих величин.

Эмпирическия оценка ковариационной матрицы вектора оценок параметров

Ранее для истинной ковариационной матрицы было получено выражение (формула (3.27 ))

В этом выражении неизвестно теоретическое значение дисперсии случайной составляющей модели . Оцененная по методу наименьших квадратов ковариационная матрица вектора b получается, если в выражении для теоретической ковариационной матрицы истинное значение дисперсии заменить его несмещенной оценкой. Получим выражение для такой оценки. Вспоминая выражения (3.15 ), (3.16 ) для оценок параметров и зависимой переменной, запишем

Используя это выражение, а также следующие свойства идемпотентных матриц: G= G T (идемпотентная матрица симметрична), G = GG , вычислим величину

Таким образом, для оцененной ковариационной матрицы получаем выражение


Элементы этой матрицы, стоящие на главной диагонали, являются эмпирическими оценками дисперсий соответствующих коэффициентов модели, а элементы, расположенные вне главной диагонали - оценками ковариаций оценок i -го и j - го коэффициентов, для всех .

На практике не приходится вычислять оценку ковариационной матрицы вручную, так как для этого существуют эффективные пакеты программ.

Доверительные интервалы для отдельных коэффициентов

Процедура построения доверительных интервалов для отдельных коэффициентов множественной регрессии принципиально не отличается от соответствующей процедуры в случае парной линейной регрессии, которую мы изучили в разделе 2.4.2. Как отмечалось выше, в классической линейной нормальной модели регрессии случайная переменная

где и - случайные величины, подчиняется центральному t - распределению с p = n - k степенями свободы. Определив из таблицы t - критерия значение t - статистики для заданного уровня значимости и данного значения степеней свободы p , получаем соотношение

Выражению () можно дать следующую интерпретацию: двусторонний симметричный доверительный интервал с

нижней границей

верхней границей

с вероятностью накрывает истинное значение регрессионного коэффициента . Уровень значимости выбирают, как и в парной линейной регрессии, либо равным 0,01 (однопроцентный уровень значимости), либо 0,05 (пятипроцентный уровень значимости).

Пример 3.5.

Определим границы доверительных интервалов для коэффициентов модели примера 3.1. Пусть уровень значимости . Вычисления по формулам (), () дают следующие значения оценок дисперсий остатков регрессии и дисперсий оценок коэффициентов , , . Оценки среднеквадратичных отклонений для коэффициентов , , . Табличное значение t - статистики для p = 12 степеней свободы и уровня значимости =0,05 равно . Используя эти данные, а также полученные ранее оценки коэффициентов , , , легко вычислить границы (), () доверительных интервалов (интервальные оценки) для коэффициентов: , ; следовательно, с вероятностью 1-=0,95 истинное значение коэффициента лежит в интервале (0,552;6,110) ; , , и, следовательно, истинное значение лежит в интервале (0,259;1,917) ; , и истинное значение лежит в интервале (-0,645;1,074) .

Пример 3.6.

Аналогично предыдущему примеру определим границы доверительных интервалов для модели примера 3.2. Стандартные ошибки оценок коэффициентов равны , , . Табличное значение t - статистики при уровне значимости 0,05 и p = 9 степенях свободы равно 2,262 . Доверительные интервалы равны соответственно: (-1,7655; 0,1016), (4,2306; 5,2553), (0,0735; 0,2765) .

Сравните доверительные интервалы, полученные в примерах 3.5, 3.6 с интервалами примеров 2.6, 2.7. Целесообразно ли включение дополнительных регрессоров в модели для объяснения поведения зависимой переменной?

Доверительные интервалы для линейных комбинаций коэффициентов регрессии

Часто при тестировании построенной модели множественной регрессии возникает задача проверки гипотез и построения доверительных интервалов для линейных комбинаций коэффициентов регрессии. Например, необходимо проверить, является ли сумма двух или нескольких коэффициентов постоянной величиной и построить доверительные границы для этой суммы.

В этом случае используется t - статистика вида

где - вектор коэффициентов линейной комбинации с постоянными компонентами, - оцененная линейная комбинация, - истинное (теоретическое) значение линейной комбинации, - оценка по методу наименьших квадратов стандартной ошибки линейной комбинации. Получим выражение для этой оценки. Теоретическая дисперсия линейной комбинации

откуда имеем

Заметим, что в линейной комбинации некоторые из коэффициентов могут быть равны нулю (разумеется, соответствующие коэффициенты в теоретическом значении комбинации также должны быть равны нулю). Границы симметричного доверительного интервала с уровнем значимости для значения линейной комбинации задаются следующим образом:

нижняя граница

верхняя граница

Замечание к интерпретации доверительных интервалов.

Границы доверительных интервалов зависят от случайных величин b , , или , . Их конкретные значения зависят от наблюдаемой выборки случайных величин. Поэтому, когда мы говорим, что доверительный интервал с заданной вероятностью накрывает неизвестное истинное значение параметра или линейную комбинацию истинных параметров, мы имеем ввиду, что границы интервалов - случайные величины. Когда доверительные интервалы строятся по конкретным выборкам (по конкретной реализации наблюдений зависимой и независимых переменных), то можно говорить о том, что построенный (реализованный) доверительный интервал включает или не включает истинное значение параметра или истинное значение линейной комбинации параметров. Поскольку границы доверительных интервалов - случайные переменные, реализации которых меняются от выборки к выборке, то и расположение и ширина соответствующего доверительного интервала меняется и зависит от конкретных реализаций случайных переменных - оценок b , , или .

3.4.5. Проверка статистических гипотез относительно коэффициентов регрессии и их линейных комбинаций: t - тесты

Процедура проверки гипотез относительно отдельных коэффициентов

Сформулируем пару гипотез относительно отдельного i - го коэффициента множественной регрессии:

гипотеза

гипотеза

t - тест для проверки гипотез можно построить с использованием двустороннего симметричного доверительного интервала для коэффициента . Правило проверки состоит в следующем. Гипотеза отклоняется, при уровне значимости , если соответствующий двусторонний доверительный интервал не накрывает значение с уровнем доверия .

Проверка гипотез о линейных комбинациях коэффициентов

Гипотезы о линейных комбинациях коэффициентов множественной регрессии формулируются следующим образом:

гипотеза

гипотеза

где c * - теоретическое значение линейной комбинации, относительно которого формулируются гипотезы, - вектор-столбец коэффициентов регрессии.

Правило проверки этих гипотез: гипотеза при уровне значимости отклоняется, если соответствующий двусторонний симметричный доверительный интервал не накрывает (не включает) значение c * с уровнем доверия .

3.4.6. Проверка статистических гипотез относительно групп регрессионных коэффициентов и линейных комбинаций: F - тесты

На практике при построении моделей множественной регрессии может возникнуть задача проверки статистических гипотез относительно нескольких коэффициентов регрессии или их линейных комбинаций, или сочетания подобных гипотез. В этом случае применяются так называемые F - тесты, основанные на свойствах F - статистики. F - тесты требуют предположения нормальности распределения случайной составляющей модели, то есть, их можно применять (также как и t - тесты) только в случае нормальной линейной регрессии. С помощью F- теста можно проверить следующие гипотезы:

1. двустороннюю пару гипотез относительно одного, двух или нескольких коэффициентов регрессии;

2. двустороннюю пару гипотез относительно значений одной, двух или нескольких линейных комбинаций коэффициентов регрессии (в отличие от t- теста, который проверяет гипотезу только об одной линейной комбинации);

3. совокупность гипотез относительно коэффициентов и их линейных комбинаций (t- тест подобного рода гипотезы проверять не позволяет).

В общем случае гипотезы для применения F- теста формулируются следующим образом:

гипотеза

где C - прямоугольная матрица размерности (m x k ), - вектор - столбец размерности m , - вектор столбец коэффициентов.

Таким образом, с помощью F- теста в общем случае проверяются гипотезы относительно одновременного выполнения (или не выполнения) совокупности m линейных соотношений вида

Коэффициент множественной детерминации характеризует, на сколько процентов построенная модель регрессии объясняет вариацию значений результативной переменной относительно своего среднего уровня, т. е. показывает долю общей дисперсии результативной переменной, объяснённой вариацией факторных переменных, включённых в модель регрессии.

Коэффициент множественной детерминации также называется количественной характеристикой объяснённой построенной моделью регрессии дисперсии результативной переменной. Чем больше значение коэффициента множественной детерминации, тем лучше построенная модель регрессии характеризует взаимосвязь между переменными.

Для коэффициента множественной детерминации всегда выполняется неравенство вида:

Следовательно, включение в линейную модель регрессии дополнительной факторной переменной xn не снижает значения коэффициента множественной детерминации.

Коэффициент множественной детерминации может быть определён не только как квадрат множественного коэффициента корреляции, но и с помощью теоремы о разложении сумм квадратов по формуле:

где ESS (Error Sum Square) – сумма квадратов остатков модели множественной регрессии с n независимыми переменными:

TSS (TotalSumSquare) – общая сумма квадратов модели множественной регрессии с n независимыми переменными:

Однако классический коэффициент множественной детерминации не всегда способен определить влияние на качество модели регрессии дополнительной факторной переменной. Поэтому наряду с обычным коэффициентом рассчитывают также и скорректированный (adjusted) коэффициент множественной детерминации, в котором учитывается количество факторных переменных, включённых в модель регрессии:

где n – количество наблюдений в выборочной совокупности;

h – число параметров, включённых в модель регрессии.

При большом объёме выборочной совокупности значения обычного и скорректированного коэффициентов множественной детерминации отличаться практически не будут.

24. Парный регрессионный анализ

Одним из методов изучения стохастических связей между признаками является регрессионный анализ.

Регрессионный анализ представляет собой вывод уравнения регрессии, с помощью которого находится средняя величина случайной переменной (признака-результата), если величина другой (или других) переменных (признаков-факторов) известна. Он включает следующие этапы:

выбор формы связи (вида аналитического уравнения регрессии);

оценку параметров уравнения;

оценку качества аналитического уравнения регрессии.

Наиболее часто для описания статистической связи признаков используется линейная форма. Внимание к линейной связи объясняется четкой экономической интерпретацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму.

В случае линейной парной связи уравнение регрессии примет вид:

Параметры данного уравнения а и b оцениваются по данным статистического наблюдения x и y. Результатом такой оценки является уравнение: , где,- оценки параметров a и b, - значение результативного признака (переменной), полученное по уравнению регрессии (расчетное значение).

Наиболее часто для оценки параметров используют метод наименьших квадратов (МНК).

Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (u) и независимой переменной (x).

Задача оценивания параметров линейного парного уравнения методом наименьших квадратов состоит в следующем:

получить такие оценки параметров ,, при которых сумма квадратов отклонений фактических значений результативного признака - yi от расчетных значений – минимальна.

Формально критерий МНК можно записать так:

Проиллюстрируем суть данного метода графически. Для этого построим точечный график по данным наблюдений (xi ,yi, i=1;n) в прямоугольной системе координат (такой точечный график называют корреляционным полем). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.

Математическая запись данной задачи:

Значения yi и xi i=1; n нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров - ,. Чтобы найти минимум функции 2-ух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их нулю, т.е.

В результате получим систему из 2-ух нормальных линейных уравнений:

Решая данную систему, найдем искомые оценки параметров:

Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм

(возможно некоторое расхождение из-за округления расчетов).

Знак коэффициента регрессии b указывает направление связи (если b>0, связь прямая, если b <0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.

Формально значение параметра а – среднее значение y при х равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра а не имеет смысла.

Оценка тесноты связи между признаками осуществляется с помощью коэффициента линейной парной корреляции - rx,y. Он может быть рассчитан по формуле:

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

Область допустимых значений линейного коэффициента парной корреляции от –1 до +1. Знак коэффициента корреляции указывает направление связи. Если rx, y>0, то связь прямая; если rx, y<0, то связь обратная.

Если данный коэффициент по модулю близок к единице, то связь между признаками может быть интерпретирована как довольно тесная линейная. Если его модуль равен единице ê rx , y ê =1, то связь между признаками функциональная линейная. Если признаки х и y линейно независимы, то rx,y близок к 0.

Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации – R2yx:

где d 2 – объясненная уравнением регрессии дисперсия y;

e 2- остаточная (необъясненная уравнением регрессии) дисперсия y;

s 2 y - общая (полная) дисперсия y .

Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака y, объясняемую регрессией (а, следовательно, и фактором х), в общей вариации (дисперсии) y. Коэффициент детерминации R2yx принимает значения от 0 до 1. Соответственно величина 1-R2yx характеризует долю дисперсии y, вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации.

При парной линейной регрессии R 2yx=r2 yx.

Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.

Формула расчета:

R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},

  • \bar{y} – ср. арифметическое зависимой переменной;
  • fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
  • yi – значение исследуемой зависимой переменной.

Детерминация, что это такое — определение

Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.

Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.

Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.

Коэффициент детерминации, что показывает?

Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.

Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.

Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.

Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.

С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.

Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.

Индекс детерминации

Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.

Формула



Коэффициент детерминации скорректированный

Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).

Таким образом можно выделить следующие свойства коэффициента детерминации:

1. ; в силу определения

2. =0;в этом случае RSS = 0, т. е. наша регрессия не объясняет, ничего не дает по сравнению с тривиальным прогнозом. Данные позволяют сделать вывод о независимости y и x, изменение в переменной x никак не влияет на изменение среднего значения переменной y. То есть увеличивается разброс точек на корреляционном поле относительно построенной линии регрессии(или статистическая зависимость очень слабая, или уравнение регрессии подобрано неверно).

3. =1; в этом случае все точки () лежат на одной прямой (ESS = 0). Тогда на основании имеющихся данных можно сделать вывод о наличии функциональной, а именно, линейной, зависимости между переменными y и x. Изменение переменной y полностью объясняется изменением переменной x.Для парной линей регрессии коэффициент детерминации точно равен квадрату коэффициента корреляции:

Вообще говоря, значение коэффициента детерминации не говорит о том, есть ли между факторами зависимость и насколько она тесная. Оно говорит только о качестве того уравнения, которое мы построили.

Удобно сравнивать коэффициенты детерминации для нескольких разных уравнений регрессии построенных по одним и тем же данным наблюдений. Из нескольких уравнений лучше то, у которого больше коэффициент детерминации.

3. Скорректированный коэффициент детерминации

Одним из свойств коэффициента детерминации является то, что это не убывающая функция от числа факторов, входящих в модель. Это следует из определения детерминации. Действительно в равенстве

Числитель не зависит, а знаменатель зависит от числа факторов модели. Следовательно, с увеличением числа независимых переменных в модели, коэффициент детерминации никогда не уменьшается. Тогда, если сравнить две регрессионные модели с одной и тоже зависимой переменной, но разным числом факторов, то более высокий коэффициент детерминации будет получен в модели с большим числом факторов. Поэтому необходимо скорректировать коэффициент детерминации с учетом количества факторов, входящих в модель.

Скорректированный (исправленный или оцененный) коэффициент детерминации определяют следующим образом:

Свойства скорректированного коэффициента детерминации:

1. Несложно заметить что при >1 исправленный коэффициент детерминации меньше коэффициента детерминации ().

2. , но может принимать отрицательные значения. При этом, если скорректированный принимает отрицательное значение, то принимает значение близкое к нулю ().

Таким образом скорректированный коэффициент детерминации является попыткой устранить эффект, связанный с ростом R 2 при увеличении числа регрессоров. - "штраф" за увеличение числа независимых переменных.