Коэффициент детерминации.
Анализ проводится, например, по коэффициенту детерминации
Альтернативным показателем степени зависимости между двумя переменными является коэффициент детерминации, представляющий собой возведенный в квадрат коэффициент корреляции (г2). Коэффициент детерминации выражается в процентах и отражает величину изменения результативного показателя (у) за счет изменения другой переменной - факторного показателя (х).
По результатам нашего примера, приведенного выше, коэффициент детерминации составил г = 0,471 б2 = 0,2224 = 22,24%. Это означает, что более 22% изменений в выручке от продаж связаны с изменениями в расходах на рекламу.
Определите коэффициент детерминации по условию теста 1. Интерпретируйте уровень этого коэффициента.
В случаях, когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Адекватность разных моделей фактическим зависимостям проверяется по критерию Фишера , показателю средней ошибки аппроксимации и величине множественного коэффициента детерминации, о которых речь пойдет несколько позже (см. 7.4).
Коэффициент детерминации модели, равный квадрату приведенного коэффициента множественной корреляции , составил 99,31% стандартная ошибка модели оказалась равна 4415 тыс. руб., / статистика Фишера - 4,415, а уровень значимости гипотезы об отсутствии связи - менее 0,01%.
Это выражение соответствует выражению т)2 (см. формулу (8.2)). Тождество коэффициента детерминации и квадрата корреляционного отношения служит основанием для интерпретации величины г2л, как доли общей дисперсии результативного признака у, которая объясняется вариацией признака-фактора х (и связью между вариацией обоих признаков). Собственно говоря, основным показателем тесноты связи и следовало бы считать коэффициент детерминации
Коэффициент детерминации г2 = 71,3%, т. е. вариация возраста супруга или супруги на 71% зависит от вариации возраста второй половины. Связь весьма тесная.
Поскольку г 2 - аналог коэффициента детерминации, можно сделать вывод, что 42,2% вариации себестоимости молока в совокупности 136 предприятий были связаны с вариацией продуктивности коров (и с факторами, варьирующими согласованно с продуктивностью в соответствии с ранее сделанной оговоркой об интерпретации парных связей).
Здесь Ry2 - коэффициент детерминации для уравнения со всеми k факторами. Числитель (8.43) и есть дополнительно объясняемая часть вариации у при включении фактора хт в уравнение после всех остальных факторов. В нашем примере, используя ранее рассчитанную величину R2 = 0,5765, при включении в анализ фактора х3 получаем
Однако крупнейшим недостатком такого способа разложения R2 является зависимость величин р2 от принятого порядка включения факторов в уравнение регрессии . Первый включаемый фактор забирает в свою пользу львиную часть системного эффекта , а на долю последнего фактора остается ничтожная часть. Например, если переставить местами факторы дс, и хэ, а также вычислить по рекуррентной формуле двухфакторный коэффициент детерминации /Z2 x = 0,8035, то получим результаты , отличные от предыдущих
Признаки-факторы должны находиться в причинной связи с результативным признаком (следствием). Поэтому, недопустимо, например, в модель себестоимости у вводить в качестве одного из факторов Xj коэффициент рентабельности , хотя включение такого фактора значительно повышает коэффициент детерминации.
Принцип простоты предпочтительнее модель с меньшим числом факторов при том же коэффициенте детерминации или даже при несущественно меньшем коэффициенте.
Предельно возможный избыток был бы в том случае, если бы не было гетерогенных сочетаний, т. е. Аб и Ба. Он составляет 140 + 80 + 230 = 450. Сам же показатель тесноты связи - отношение фактического излишка к предельному 140 450 = 0,311. Как видим, этот показатель близок к коэффициенту ассоциации, но обладает чрезвычайно логичной и ясной интерпретацией связь составляет 0,311 или 31,1%, от предельно возможной функциональной . Этот показатель - аналог не коэффициента корреляции , а коэффициента детерминации. Поэтому правомерно обозначить его как R2 или г 2. Он имеет вид
Коэффициент детерминации г2, равен 0,88, или 88% колебаний себестоимости картофеля связаны с колебаниями урожайности. Положительны лишь три произведения отклонения мг иу, притом наименьшие.
Проведение анализа по отдельным единицам с использованием уравнения регрессии обычно основывается на разложении величины отклонения от общей средней (у, - у) на две составляющие (у, - у) и (у, - у,). Если в уравнение регрессии входят все важные и существенные факторы, от которых- зависит величина результативного признака , и коэффициент детерминации близок к единице, то остальные, не включенные в уравнение факторы, характеризуют индивидуальные, несущественные особенности, зачастую не имеющие количественного выражения. В этом случае разница (у, - у/) образуется за счет несовпадения интенсивности воздействия на у всех учтенных факторов в условиях данной /-и единицы и средней интенсивности их воздействия, выраженной в величинах коэффициентов регрессии, входящих в расчетное значение yf. Это дает право интерпретировать разницу (у, -у,) или отношение у,/у, как показатель того, как эффективность использования учтенных факторов у /-и единицы соотносится со средней эффективностью их использования. Разница (у, - у) возникает за счет различия в значениях учтенных факторов для данной /-и единицы и в среднем по совокупности. Такое разложение дает возможность выявить резервы, имеющиеся у каждой отдельной единицы, в части эффективности ис- пользования факторов и в части их уровня.
Учитывая сравнительно низкие значения отчетного и базисного коэффициентов детерминации (/ 0 = 0,8] 54, г2, = 0,7974), разница фактической и расчетной величин (V,- V) выражает не только различия в эффективности использования учтенного фактора - мощности пласта - на данной конкретной шахте по сравнению со средней эффективностью по тресту, но и влияние неучтенных в уравнении регрессии факторов.
I Третий способ построения многомерных средних долей не требует привлечения каких-либо субъективных экспертных оценок - используется только информация, содержащаяся в исходных долях. Более информативным, а следовательно, весомым признается тот признак, который имеет более высокий коэффициент детерминации долей со всеми остающимися признаками. Вычислив попарные и средние коэффициенты детерминации, примем меньший из них за единицу (один балл) и получим баллы для других признаков, как отношения их средних коэффициентов детерминации к меньшему (см. табл. 11.9).
Сoefficient of determination
Синонимы: Коэффициент смешанной корреляции
Статистический показатель, отражающий объясняющую способность уравнения регрессии и равный отношению суммы квадратов регрессии SSR к общейвариации SST:
где – уровень ряда,– смоделированное значение,– среднее по всем уровням ряда.
Данный показатель является статистической мерой согласия, с помощью которой можно определить, насколько уравнение регрессии соответствует реальным данным.
Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует, и вместо нее для оценки значения выходной переменной можно с таким же успехом использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно налинии регрессии , т.е. сумма квадратов их отклонений равна 0. На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когдавходная переменная плохо "объясняет" поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность.
Коэффициент детерминации (R 2 )- это долядисперсии отклонений зависимой переменной от еёсреднего значения , объясняемая рассматриваемоймоделью связи (объясняющими переменными). Модель связи обычно задается как явная функция от объясняющих переменных. В частном случае линейной связиR 2 является квадратомкоэффициента корреляции между зависимой переменной и объясняющими переменными.
Общая формула для вычисления коэффициента детерминации:
где y i - наблюдаемое значение зависимой переменной, аf i - значение зависимой переменной предсказанное по уравнению регрессии-среднее арифметическое зависимой переменной.
При проверке гипотезы о наличии связи модель связи может быть неизвестна. Тогда ее задают в виде кусочно-постоянной функции (в этом случае коэффициент детерминации равен квадрату корреляционного отношения) либо оценивают неизвестные значения функции связи, используя методы сглаживания эмпирической зависимости (напримерметод скользящих средних ) .
Как уж ранее отмечалось, в случае линейной регрессии основными показателями качества построенного уравнения регрессии служат коэффициент детерминации и критерий Фишера. Использование этих показателей обосновывается в теории дисперсионного анализа. Здесь рассматриваются следующие суммы:
· – общая сумма квадратов отклонений зависимой переменной от средней (TSS );
· – сумма квадратов, обусловленная регрессией (RSS );
· – сумма квадратов, характеризующая влияние неучтенных факторов (ESS ).
Напомним, что для моделей, линейных относительно параметров, выполняется следующее равенство
Исходя из этого равенства, вводился коэффициент детерминации
. (6.22)
В силу определения R 2 принимает значения между 0 и 1, . Чем ближе R 2 к единице, тем лучше регрессия аппроксимирует эмпирические данные , тем теснее наблюдения примыкают к линии регрессии. Если R 2 =1, то эмпирические точки (x i ,y i) лежат на линии регрессии и между переменными Y и X существует функциональная зависимость . Если R 2 =0, то вариация зависимой переменной полностью обусловлена воздействием неучтённых в модели переменных . Величина R 2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной .
Однако для моделей, нелинейных относительно параметров, равенство (6.21) не выполняется , т.е. . В связи с этим может получиться, что или . Это означает, что коэффициент детерминации, определяемый по формулам (6.22), может быть больше единицы или меньше нуля. Следовательно, R 2 для нелинейных моделей не является вполне адекватной характеристикой качества построенного уравнения регрессии.
На практике обычно в качестве коэффициента детерминации принимается величина
Эта величина имеет тот же самый смысл, что и для линейной модели, но при его использовании нужно учитывать все рассмотренные выше оговорки.
Замечание. Величину R 2 для нелинейных моделей иногда называют индексом детерминации , корень из данной величины R называют индексом корреляции.
Если после преобразования нелинейное уравнение регрессии принимает форму линейного парного уравнения регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции , где z – преобразованная величина независимой переменной, например z =1/x или z =lnx .
Иначе обстоит дело, когда преобразования уравнения в линейную форму связаны с результативным признаком. В этом случае линейный коэффициент корреляции по преобразованным значениям даёт лишь приближённую оценку тесноты связи и численно не совпадает с индексом корреляции.
Вследствие близости результатов и простоты расчётов с использованием компьютерных программ для характеристики тесноты связи по нелинейным функциям широко используется линейный коэффициент корреляции ( или ). Несмотря на близость значений R yx и или R yx и , следует помнить, что эти значения не совпадают. Это связано с тем, что для нелинейной регрессии , в отличие от линейной регрессии .
Коэффициент детерминации можно сравнивать с квадратом коэффициента корреляции для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина меньше . Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически, если величина ( – ) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия этих показателей, вычисленных по одним и тем же исходным данным.
Коэффициент детерминации можно использовать при сравнении двух альтернативных уравнений регрессии. Можно выбрать наилучшую из них по максимальному значению коэффициента детерминации. При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной предложенный способ выбора достаточно проста и очевидна. Однако нельзя сравнивать, например, линейную и логарифмические модели. Значения lnY значительно меньше соответствующих значений Y , поэтому неудивительно, что остатки также значительно меньше, но это ничего не решает. Величина R 2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии Y , а в другом – объясненную регрессией долю дисперсии lnY . Если для одной модели коэффициент R 2 значительно больше, чем для другой, то можно сделать оправданный выбор без особых раздумий, однако, если значения R 2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.
Более подробно проблемы спецификации рассматриваются в дополнении 3.
Отметим, что критерий Фишера можно применять только для нормальной линейной классической регрессионной модели . Однако в общем случае, в первую для моделей нелинейных по параметрам, критерий Фишера применять нельзя! Иногда критерий Фишера применяют для линеаризованных моделей, однако здесь следует помнить, что исходное и линеаризованное уравнения не одно и то же, т.е. здесь нужны серьезные оговорки.
Более подробно использования критерия Фишера для линеаризированных моделей смотрите в дополнении 2.
ПРИМЕРЫ
Пример 6.1. Вычислить полулогарифмическую функцию регрессии зависимости доли расходов на товары длительного пользования в общих расходах семьи (Y , %) от среднемесячного дохода семьи (X , тыс. $ ):
X | ||||||
Y | 13,4 | 15,4 | 16,5 | 18,6 | 19,3 |
Решение. Используем стандартные процедуры линейного регрессионного анализа. Для расчетов воспользуемся данными таблицы 6.1:
Табл. 6.1.
№ | x | u= lnx | y | uy | u 2 | y 2 | A | |||
9,88 | 0,12 | 1,241 | 0,0154 | |||||||
0,693 | 13,4 | 9,29 | 0,48 | 179,56 | 13,43 | -0,03 | 0,232 | 0,0010 | ||
1,099 | 15,4 | 16,92 | 1,21 | 237,16 | 15,51 | -0,11 | 0,718 | 0,0122 | ||
1,386 | 16,5 | 22,87 | 1,92 | 272,25 | 16,99 | -0,49 | 2,946 | 0,2363 | ||
1,609 | 18,6 | 29,94 | 2,59 | 345,96 | 18,13 | 0,47 | 2,524 | 0,2203 | ||
1,792 | 19,1 | 34,22 | 3,21 | 364,81 | 19,07 | 0,03 | 0,180 | 0,0012 | ||
Итого | 6,579 | 113,24 | 9,41 | 1499,74 | 7,840 | 0,4864 | ||||
Среднее значение | 3,5 | 1,097 | 15,5 | 18,87 | 1,57 | 249,96 | 1,307 |
В соответствии с формулами (6.103) вычисляем
, .
В результате, получим уравнение полулогарифмической регрессии:
Подставляя в уравнение (6.24) фактические значения x i , получаем теоретические значения результата . Используя программу Excel ,
ВЫВОД ИТОГОВ | |||||||
Регрессионная статистика | |||||||
Множественный R | 0,9958 | ||||||
R -квадрат | 0,9916 | ||||||
Нормированный R -квадрат | 0,9896 | ||||||
Стандартная ошибка | 0,3487 | ||||||
Наблюдения | |||||||
ДИСПЕРСИОННЫЙ АНАЛИЗ | |||||||
df | SS | MS | F | Значимость F | |||
Регрессия | 57,75 | 57,75 | 474,93 | 0,000026 | |||
Остаток | 0,49 | 0,12 | |||||
Итого | 58,24 | ||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y -пересечение | 9,8759 | 0,2947 | 33,51 | 0,0000047 | 9,0576 | 10,6942 |
Переменная lnX | 5,1289 | 0,2353 | 21,79 | 0,0000262 | 4,4755 | 5,7823 |
Из этих данных видно, в частности, что все коэффициенты регрессии статистически значимы. Оценим качество уравнения регрессии. Рассчитаем среднюю ошибку аппроксимации
,
т.е. с точки зрения этого показателя уравнение регрессии подобрано очень хорошо.
Вычислим теперь средний коэффициент эластичности
Таким образом, при возрастании среднемесячного дохода семьи на 1% доля расходов на товары длительного пользования в общих расходах семьи возрастет на 0,25% .
Коэффициент детерминации для данной модели совпадает с квадратом коэффициента корреляции . По данным таблицы 6.3 получаем
И .
Коэффициент детерминации показывает, что уравнение регрессии на 99% объясняет вариацию значений признака y , т.е. с точки зрения коэффициента детерминации построенное уравнение регрессии очень хорошо описывает исходные данные.
Для оценки качества данной модели можно использовать критерий Фишера (при предположении, что мы имеем дело с нормальной классической линейной моделью). В этом случае получаем
, .
Поскольку F набл >F крит , то гипотеза о случайной природе оцениваемых параметров отклоняется и признается их статистическая значимость и надежность, т.е. построенное уравнение регрессии признается статистически значимым. â
Пример 6.2. Имеются данные о просроченной задолженности по заработной плате за 9 месяцев 2000 г. по Санкт-Петербургу.
. Оцените качество построенной регрессии. б) Оцените МНК коэффициенты обратной модели , линеаризуя модель. Оцените качество построенной регрессии. в) Оцените МНК коэффициенты обратной модели , используя численные методы (метод Маркуардта)? г) Проанализируйте полученные результаты.
Решение. а) Используя стандартные процедуры линейного регрессионного анализа (считая, как обычно, t =1 для января 2000 г.), получим:
ВЫВОД ИТОГОВ | |||||||
Регрессионная статистика | |||||||
Множественный R | 0,846 | ||||||
R -квадрат | 0,716 | ||||||
Нормированный R -квадрат | 0,675 | ||||||
Стандартная ошибка | 12,233 | ||||||
Наблюдения | |||||||
ДИСПЕРСИОННЫЙ АНАЛИЗ | |||||||
df | SS | MS | F | Значимость F | |||
Регрессия | 2640,07 | 2640,07 | 17,64 | 0,00403 | |||
Остаток | 1047,58 | 149,65 | |||||
Итого | 3687,64 | ||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | ||
Y-пересечение | 410,12 | 8,89 | 46,15 | 5,87E-10 | 389,11 | 431,14 | |
Переменная X 1 | -6,63 | 1,58 | -4,20 | 4,03E-03 | -10,37 | -2,90 | |
,
|
причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные. На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:
В соответствии с построенным уравнением просроченная задолженность по заработной плате за 9 месяцев 2000 г. ежемесячно снижалась на 6,6 млн. руб. Расчётное значение просроченной задолженности за декабрь 1999 г. составило 410,1 млн. руб. Точечный прогноз за октябрь составила: млн. руб.
Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза (на уровне значимости a=0,05):
.
Точность прогноза составила .
б) Линеаризуем модель, полагая v =1/y . Составляем расчётную таблицу.
Месяцы | t | y | v= 1/y | tv | t 2 | v 2 | |||
Январь | 387,6 | 0,00258 | 0,0026 | 0,0000067 | 0,00247 | 0,0001134 | 0,00000001286 | ||
Февраль | 399,9 | 0,00250 | 0,0050 | 0,0000063 | 0,00252 | -0,0000145 | 0,00000000021 | ||
Март | 404,0 | 0,00248 | 0,0074 | 0,0000061 | 0,00256 | -0,0000885 | 0,00000000783 | ||
Апрель | 383,1 | 0,00261 | 0,0104 | 0,0000068 | 0,00261 | -0,0000020 | 0,00000000000 | ||
Май | 376,9 | 0,00265 | 0,0133 | 0,0000070 | 0,00266 | -0,0000076 | 0,00000000006 | ||
Июнь | 377,7 | 0,00265 | 0,0159 | 0,0000070 | 0,00271 | -0,0000618 | 0,00000000382 | ||
Июль | 358,1 | 0,00279 | 0,0195 | 0,0000078 | 0,00276 | 0,0000345 | 0,00000000119 | ||
Август | 371,9 | 0,00269 | 0,0215 | 0,0000072 | 0,00281 | -0,0001177 | 0,00000001385 | ||
Сентябрь | 333,4 | 0,00300 | 0,0270 | 0,0000090 | 0,00286 | 0,0001442 | 0,00000002081 | ||
Итого: | 3392,6 | 0,02395 | 0,1227 | 0,0000639 | 0,02395 | 0,00000006063 | |||
Среднее | 376,96 | 0,002661 | 0,0136 | 31,67 | 0,0000071 |
Вычисляем
В результате, получим уравнение обратной регрессии:
.
Используя программу Excel получим следующие данные (на уровне значимости a=0,05):
ДИСПЕРСИОННЫЙ АНАЛИЗ | ||||||
df | SS | MS | F | Значимость F | ||
Регрессия | 1,41557E-07 | 1,41557E-07 | 16,34 | 0,00492 | ||
Остаток | 6,06323E-08 | 8,66176E-09 | ||||
Итого | 2,02189E-07 | |||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y -пересечение | 0,002418 | 6,76E-05 | 35,76 | 3,47E-09 | 0,00226 | 0,00258 |
Переменная lnX | 0,0000486 | 1,20E-05 | 4,04 | 0,00492 | 2,02E-05 | 7,70E-05 |
R 2 =0,7). Этот вывод подтверждается и с точки зрения критерия Фишера (отметим, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y , а к обратным значениям 1/y
t | y | A | |||||
387,6 | 405,42 | -17,821 | 317,58 | 113,30 | 810,26 | 4,60 | |
399,9 | 397,59 | 2,309 | 5,33 | 526,45 | 425,83 | 0,58 | |
404,0 | 390,06 | 13,942 | 194,37 | 731,40 | 171,68 | 3,45 | |
383,1 | 382,81 | 0,294 | 0,09 | 37,75 | 34,22 | 0,08 | |
376,9 | 375,82 | 1,082 | 1,17 | 0,00 | 1,29 | 0,29 | |
377,7 | 369,08 | 8,620 | 74,30 | 0,55 | 62,02 | 2,28 | |
358,1 | 362,58 | -4,480 | 20,07 | 355,53 | 206,64 | 1,25 | |
371,9 | 356,31 | 15,595 | 243,19 | 25,56 | 426,43 | 4,19 | |
333,4 | 350,24 | -16,844 | 283,71 | 1897,09 | 713,52 | 5,05 | |
3392,6 | 2,696 | 1139,81 | 3687,64 | 2851,90 | 21,77 | ||
376,96 | 2,42 |
.
Отметим, что для нелинейных моделей, оцененных МНК, эта сумма всегда равна нулю. Следовательно, оценки исходной нелинейной модели будут смещёнными .
Отсюда, в частности, следует, что равенство не выполняется. Действительно,
В связи с этим, для коэффициента детерминации можно получить два разных значения:
, или .
Это означает, что коэффициент детерминации для нелинейных моделей не всегда является адекватной характеристикой. Отметим, что в компьютерных программах для вычисления коэффициента детерминации в основном используют второе равенство.
Сделаем прогноз по полученному уравнению обратной модели и оценим его точность. Точечный прогноз за октябрь составит:
Млн. руб.
Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза по линеаризированному уравнению (на уровне значимости a=0,05):
В результате, доверительный интервал для прогнозного значения будет иметь вид
Точность прогноза для преобразованной переменной v составляет 9,4%. Однако мы имеем дело нес обратными величинами v =1/y , а с y . Переходя к исходной переменной, получим следующий доверительный интервал
.
Точность прогноза для непреобразованной переменной y составляет уже 18,9%. Этот результат показывает, что исходное и преобразованное уравнения дают, вообще говоря, разный результат.
в) Оценим МНК коэффициенты обратной модели
,
используя численные методы (метод Левенберга-Маркуардта). Для этого воспользуемся программой STATISTIKA. Программа выдаёт следующие результаты.
Уравнение регрессии имеет вид
с коэффициентом детерминации R 2 =0,6947. Для сравнений приведем результаты вычислений.
Видно, что численные методы дают вполне удовлетворительный результат. Более того, они позволяют провести также и некоторый статистический анализ полученной модели (хотя и не такой полный по-сравнению с линейными моделями). Таким образом, как показывает данный пример, линеаризация не всегда даёт более лучший результат по-сравнению с численными методами.
г) Сделаем некоторые выводы. Отметим, что коэффициенты детерминации для обеих моделей (линейной и обратной) практически не отличаются друг от друга: R 2 =0,716 для линейной модели и R 2 =0,691 для обратной модели. Поэтому обе модели с точки зрения коэффициента детерминации равноценны. Однако при оценке точности прогноза лучше использовать, как мы видели, линейную модель. Таким образом, использование обратной модели для интерпретации имеющихся результатов не совсем оправдано. С точки зрения статистических свойств в данном случае лучше использовать линейную модель. â
Пример 6.3. Имеются данные о зависимости расхода топлива (Y , г /на т·км ) от мощности двигателя грузовых автомобилей общего назначения (X , л.с. ):
X | |||||||||||
Y |
а) Оцените МНК коэффициенты линейной модели . Оцените качество построенной регрессии. б) Оцените МНК коэффициенты степенной модели , линеаризуя модель. Оцените качество построенной регрессии.
Решение. а) Используя стандартные процедуры линейного регрессионного анализа, получим:
ВЫВОД ИТОГОВ | |||||||
Регрессионная статистика | |||||||
Множественный R | 0,8378 | ||||||
R -квадрат | 0,7019 | ||||||
Нормированный R -квадрат | 0,6688 | ||||||
Стандартная ошибка | 12,8383 | ||||||
Наблюдения | |||||||
ДИСПЕРСИОННЫЙ АНАЛИЗ | |||||||
df | SS | MS | F | Значимость F | |||
Регрессия | 3493,3 | 3493,3 | 21,19 | 0,001284 | |||
Остаток | 1483,4 | 164,8 | |||||
Итого | 4976,7 | ||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | ||
Y-пересечение | 103,866 | 9,993 | 10,39 | 0,0000 | 81,261 | 126,471 | |
Переменная X | -0,3388 | 0,0736 | -4,60 | 0,0013 | -0,5053 | -0,1723 | |
Таким образом, линейное уравнение регрессии будет иметь вид
,
причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные.
На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:
Используя программу Excel получим следующие данные (на уровне значимости a=0,05):
ВЫВОД ИТОГОВ | |||||||
Регрессионная статистика | |||||||
Множественный R | 0,8233 | ||||||
R -квадрат | 0,6778 | ||||||
Нормированный R -квадрат | 0,6420 | ||||||
Стандартная ошибка | 0,2653 | ||||||
Наблюдения | |||||||
ДИСПЕРСИОННЫЙ АНАЛИЗ | |||||||
df | SS | MS | F | Значимость F | |||
Регрессия | 1,3327 | 1,3327 | 18,93 | 0,001847 | |||
Остаток | 0,6336 | 0,0704 | |||||
Итого | 1,9663 | ||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | ||
Y -пересечение | 8,141 | 0,946 | 8,609 | 0,0000123 | 6,002 | 10,280 | |
Переменная lnX | -0,864 | 0,198 | -4,351 | 0,0018473 | -1,313 | -0,415 | |
Качество линеаризованного уравнения довольно высокое (R 2 =0,678). Этот вывод подтверждается и с точки зрения критерия Фишера (напомним, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y , а к их логарифмам lny , а это существенная разница. Проанализируем исходную, нелинеаризированную, модель.
Из таблицы видно, что для данной модели
.
Следовательно, оценки исходной нелинейной модели будут смещёнными.
Для коэффициента детерминации можно получить два разных значения:
, или .
Это означает, что полученное уравнение достаточно хорошо описывает исходные данные и этот коэффициент выше, чем для коэффициента детерминации линейной регрессии. Хотя средний коэффициент аппроксимации не очень низкий .
Сделаем прогноз по полученному уравнению степенной модели и оценим его точность. При мощности двигателя x =70 л.с. расход топлива на 1 т-км составит
Коэффициент детерминации ( - R-квадрат ) - это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Более точно - это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по признакам дисперсии зависимой переменной) в дисперсии зависимой переменной. В случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели линейной регрессии с одним признаком коэффициент детерминации равен квадрату обычного коэффициента корреляции между и .
Определение и формула
Истинный коэффициент детерминации модели зависимости случайной величины от признаков определяется следующим образом:
где - условная (по признакам ) дисперсия зависимой переменной (дисперсия случайной ошибки модели).
В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):
- сумма квадратов регрессионных остатков, - общая дисперсия, - соответственно, фактические и расчетные значения объясняемой переменной, - выборочное вреднее.В случае линейной регрессии с константой , где - объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае. Коэффициент детерминации - это доля объяснённой дисперсии в общей :
.Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.
Интерпретация
Недостатки и альтернативные показатели
Основная проблема применения (выборочного) заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.
Скорректированный (adjusted)
Для того, чтобы была возможность сравнивать модели с разным числом признаков так, чтобы число регрессоров (признаков) не влияло на статистику обычно используется скорректированный коэффициент детерминации , в котором используются несмещённые оценки дисперсий:
который даёт штраф за дополнительно включённые признаки, где - количество наблюдений, а - количество параметров.
Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве признаков), поэтому интерпретировать его как долю объясняемой дисперсии уже нельзя. Тем не менее, применение показателя в сравнении вполне обоснованно.
Для моделей с одинаковой зависимой переменной и одинаковым объемом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии или стандартной ошибки модели .
Обобщённый (extended)
В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации . Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию . Эта проблема решается с помощью построения обобщённого коэффициента детерминации , который совпадает с исходным для случая МНК регрессии со свободным членом. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных.
Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.
Формула расчета:
R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},
- \bar{y} – ср. арифметическое зависимой переменной;
- fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
- yi – значение исследуемой зависимой переменной.
Детерминация, что это такое — определение
Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.
Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.
Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.
Коэффициент детерминации, что показывает?
Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.
Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.
Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.
Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.
С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.
Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.
Индекс детерминации
Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.
Формула
Коэффициент детерминации скорректированный
Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).