Расчет линейной корреляции. Линейная и нелинейная корреляция

Таблица 2.4. 16-ричная система кодирования

Десятичная система	16-ричная система	Десятичная система	16-ричная система
0	0 (0000)	10	A (1010)
1	1(0001)	11	B (1011)
2	2 (0010)	12	C (1100)
3	3 (0011)	13	D (1101)
4	4 (0100)	14	E (1110)
5	5 (0101)	15	F (1111)
6	6 (0110)	16	10 (00010000)
7	7 (0111)	17	11 (00010001)
8	8 (1000)	18	12 (00010010)
9	9 (1001)	19	13 (00010011)

Для перевода 16-ричного числа в десятичное необходимо умножить значение младшего (нулевого) разряда на единицу, значение следующего (первого) разряда на 16, второго разряда на 256 (16 2) и т.д., а затем сложить все произведения. Например, возьмем число A17F :

A17F=F*16 0 + 7*16 1 + 1*16 2 + A*16 3 = 15*1 + 7*16+1*256+10*4096=41343

Таблица 2.5. 8-ричная система кодирования

Десятичная система	8-ричная система	Десятичная система	8-ричная система
0	0 (000)	10	12 (001010)
1	1(001)	11	13 (001011)
2	2 (010)	12	14 (001100)
3	3 (011)	13	15 (001101)
4	4 (100)	14	16 (001110)
5	5 (101)	15	17 (001111)
6	6 (110)	16	20 (010000)
7	7 (111)	17	21 (010001)
8	10 (001000)	18	22 (010010)
9	11 (001001)	19	23 (010011)

Но каждому специалисту по цифровой аппаратуре (разработчику, оператору, ремонтнику, программисту и т.д.) необходимо научиться так же свободно обращаться с 16-ричной и двоичной системами, как и с обычной десятичной, чтобы никаких переводов из системы в систему не требовалось.

Значительно реже, чем 16-ричное, используется восьмеричное кодирование , которое строится по такому же принципу, что и 16-ричное, но двоичные разряды разбиваются на группы по три разряда. Каждая группа (разряд кода) затем обозначается одним символом. Каждый разряд 8-ричного кода может принимать восемь значений: 0, 1, 2, 3, 4, 5, 6, 7 (табл. 2.5) .

Помимо рассмотренных кодов, существует также и так называемое двоично-десятичное представление чисел. Как и в 16-ричном коде, в двоично-десятичном коде каждому разряду кода соответствует четыре двоичных разряда, однако каждая группа из четырех двоичных разрядов может принимать не шестнадцать, а только десять значений, кодируемых символами 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. То есть одному десятичному разряду соответствует четыре двоичных. В результате получается, что написание чисел в двоично-десятичном коде ничем не отличается от написания в обычном десятичном коде (табл. 2.6) , но в реальности это всего лишь специальный двоичный код, каждый разряд которого может принимать только два значения: 0 и 1. Двоично-десятичный код иногда очень удобен для организации десятичных цифровых индикаторов и табло.

Таблица 2.6. Двоично-десятичная система кодирования

Десятичная система	Двоично-десятичная система	Десятичная система	Двоично-десятичная система
0	0 (0000)	10	10 (00010000)
1	1(0001)	11	11 (00010001)
2	2 (0010)	12	12 (00010010)
3	3 (0011)	13	13 (00010011)
4	4 (0100)	14	14 (00010100)
5	5 (0101)	15	15 (00010101)
6	6 (0110)	16	16 (00010110)
7	7 (0111)	17	17 (00010111)
8	8 (1000)	18	18 (00011000)
9	9 (1001)	19	19 (00011001)

В двоичном коде над числами можно проделывать любые арифметические операции : сложение , вычитание , умножение , деление .

Рассмотрим, например, сложение двух 4-разрядных двоичных чисел. Пусть надо сложить число 0111 (десятичное 7) и 1011 (десятичное 11). Сложение этих чисел не сложнее, чем в десятичном представлении:

При сложении 0 и 0 получаем 0, при сложении 1 и 0 получаем 1, при сложении 1 и 1 получаем 0 и перенос в следующий разряд 1. Результат - 10010 (десятичное 18). При сложении любых двух n-разрядных двоичных чисел может получиться n-разрядное или (n+1) -разрядное число.

Точно так же производится вычитание . Пусть из числа 10010 (18) надо вычесть число 0111 (7). Записываем числа с выравниванием по младшему разряду и вычитаем точно так же, как в случае десятичной системы:

При вычитании 0 из 0 получаем 0, при вычитании 0 из 1 получаем 1, при вычитании 1 из 1 получаем 0, при вычитании 1 из 0 получаем 1 и заем 1 в следующем разряде. Результат - 1011 (десятичное 11).

При вычитании возможно получение отрицательных чисел, поэтому необходимо использовать двоичное представление отрицательных чисел.

Для одновременного представления как двоичных положительных, так и двоичных отрицательных чисел чаще всего используется так называемый дополнительный код . Отрицательные числа в этом коде выражаются таким числом, которое, будучи сложено с положительным числом такой же величины, даст в результате нуль. Для того чтобы получить отрицательное число, надо поменять все биты такого же положительного числа на противоположные (0 на 1, 1 на 0) и прибавить к результату 1. Например, запишем число –5. Число 5 в двоичном коде выглядит 0101. Заменяем биты на противоположные: 1010 и прибавляем единицу: 1011. Суммируем результат с исходным числом: 1011 + 0101 = 0000 (перенос в пятый разряд игнорируем).

по модулю 2 два двоичных числа 0111 и 1011:

Среди других побитовых операций над двоичными числами можно отметить функцию И и функцию ИЛИ. Функция И дает в результате единицу только тогда, когда в соответствующих битах двух исходных чисел обе единицы, в противном случае результат -0. Функция ИЛИ дает в результате единицу тогда, когда хотя бы один из соответствующих битов исходных чисел равен 1, в противном случае результат 0.

Всем, кто общается с компьютером или другой цифровой техникой, приходилось встречать загадочные записи типа 10FEF, которые кажутся непосвященным каким-то шифром. Что скрывается за этими символами? Оказывается, это просто цифры. Те, которые использует шестнадцатиричная

Системы счисления

Каждый школьник знает или хотя бы где-то слышал, что все цифры, которые мы обычно используем, образуют Это название она носит просто потому, что различных символов в ней всего десять (от 0 до 9). Любое число в нашей привычной системе может быть записано с их помощью. Однако, оказывается, использовать ее удобно бывает далеко не всегда. Например, при обмене информацией между цифровыми устройствами проще всего применять систему счисления, в которой есть только две цифры: «0» - нет сигнала - или «1» - есть сигнал (напряжение или что-то еще). Она называется двоичной. Однако, чтобы описать процессы внутри таких устройств с ее помощью, придется выполнять слишком длинные и трудные для понимания записи. Поэтому была придумана шестнадцатиричная система счисления.

Понятие шестнадцатеричной системы

Почему же для цифровых устройств используется именно система, которая содержит шестнадцать разных символов? Как известно, информация в компьютерах передается в виде байтов, которые обычно содержат 8 бит. А единица данных - машинное слово - включает в себя 2 байта, то есть 16 бит. Таким образом, с помощью шестнадцати разных символов можно описать ту информацию, которая является мельчайшей частицей при обмене. Шестнадцатиричная система счисления включает наши привычные цифры (естественно, от 0 до 9), а также первые буковки (A, B, C, D, E, F). Именно с помощью этих символов принято записывать любую единицу информации. С ними можно производить любые арифметические действия. То есть сложение, вычитание, умножение, деление. Результатом также будет шестнадцатеричное число.

Где применяется

Шестнадцатиричная система используется для записи кодов ошибок. Они могут возникать при работе различных программных продуктов. Например, так кодируются ошибки операционной системы. Каждое число при этом стандартное. Можно выяснить, какая именно ошибка произошла в процессе работы, расшифровав его с помощью инструкции. Также применяются такие символы при написании программ на языках низкого уровня, например ассемблере. Шестнадцатиричная система счисления любима программистами еще и потому, что ее составляющие очень легко могут быть переведены в двоичные, которые являются «родными» для всей цифровой техники. С помощью таких символов описывают также цветовые схемы. Кроме того, абсолютно все файлы в компьютере (и текстовые, и графические, и даже музыкальные или видео) представляются после трансляции в виде последовательности Просматривать исходный удобнее всего как раз в виде шестнадцатеричных символов.

Конечно, любое число можно записать в различных системах счисления. Это и десятичная, и двоичная, и шестнадцатеричная. Чтобы перевести слово из одной из них в другую, следует воспользоваться таким сервисом, как переводчик систем счисления, или сделать это самостоятельно с помощью определенного алгоритма.

Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, есть ли линейная связь между изменениями значений двух переменных. В статистических расчетах и выводах коэффициент корреляции обычно обозначается как r xy или R xy .

1. История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон .

2. Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа .
Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа .
Критерий корреляции Пирсона является параметрическим , в связи с чем условием его применения служит нормальное распределение сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена .
Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью , подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь , означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста , но разного роста , то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.

4. Как рассчитать коэффициента корреляции Пирсона?

Расчет коэффициента корреляции Пирсона производится по следующей формуле:

5. Как интерпретировать значение коэффициента корреляции Пирсона?

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение r xy – тем выше теснота связи между двумя величинами. r xy = 0 говорит о полном отсутствии связи. r xy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения r xy < 0.3 свидетельствуют о слабой связи, значения r xy от 0.3 до 0.7 - о связи средней тесноты, значения r xy > 0.7 - о сильной связи.

Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока :

Оценка статистической значимости коэффициента корреляции r xy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:

Полученное значение t r сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если t r превышает t крит, то делается вывод о статистической значимости выявленной корреляционной связи.

6. Пример расчета коэффициента корреляции Пирсона

Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице.

Корреляционный анализ занимается степенью связи между двумя случайными величинами Х и Y. Корреляционный анализ экспериментальных данных для двух случайных величин заключает в себе следующие основные приемы:

- вычисление выборочных коэффициентов корреляции;
- составление корреляционной таблицы;
- проверка статистической гипотезы значимости связи.

Определение. Корреляционная зависимость между случайными величинами Х и Y называется линейной корреляцией, если обе функции регрессии f(x) и ф(x) являются линейными. В этом случае обе линии регрессии являются прямыми; они называется прямыми регрессии.

Для достаточно полного описания особенностей корреляционной зависимости между величинами недостаточно определить форму этой зависимости и в случае линейной зависимости оценить ее силу по величине коэффициента регрессии. Например, ясно, что корреляционная зависимость возраста Y учеников средней школы от года Х их обучения в школе является, как правило, более тесной, чем аналогичная зависимость возраста студентов высшего учебного заведения от года обучения, поскольку среди студентов одного и того же года обучения в вузе обычно наблюдается больший разброс в возрасте, чем у школьников одного и того же класса.

Для оценки тесноты линейных корреляционных зависимостей между величинами Х и Y по результатам выборочных наблюдений вводится понятие выборочного коэффициента линейной корреляции, определяемого формулой:

Следует отметить, что основной смысл выборочного коэффициента линейной корреляции rB состоит в том, что он представляет собой эмпирическую (т.е. найденную по результатам наблюдений над величинами Х и Y) оценку соответствующего генерального коэффициента линейной корреляции r. Принимая во внимание формулы:

Видим, что выборочное уравнение линейной регрессии Y на Х имеет вид:

Основные свойства выборочного коэффициента линейной корреляции:

1. Коэффициент корреляции двух величин, не связанных линейной корреляционной зависимостью, равен нулю.

2. Коэффициент корреляции двух величин, связанных линейной корреляционной зависимостью, равен 1 в случае возрастающей зависимости и -1 в случае убывающей зависимости.

3. Абсолютная величина коэффициента корреляции двух величин, связанных линейной корреляционной зависимостью, удовлетворяет неравенству 0 меньше r меньше 1.

4. Чем ближе r к 1, тем теснее прямолинейная корреляция между величинами Y, X.

По своему характеру корреляционная связь может быть прямой и обратной, а по силе - сильной, средней, слабой. Кроме того, связь может отсутствовать или быть полной.

Пример 4. Изучалась зависимость между двумя величинами Y и Х. Результаты наблюдений приведены в таблице в виде двумерной выборки объема 11:

Требуется:

1. Вычислить выборочный коэффициент корреляции.
2. Оценить характер и силу корреляционной зависимости.
3. Написать уравнение линейной регрессии Y на Х.

Решение. По известным формулам:

Таким образом, следует сделать вывод, что рассматриваемая корреляционная зависимость между величинами Х и Y является по характеру - обратной, по силе - средней. Уравнение линейной регрессии Y на Х:

Пример 5. Изучалась зависимость между качеством Y (%) и количеством Х (шт.). Результаты наблюдений приведены в виде корреляционной таблицы:

Требуется вычислить выборочный коэффициент линейной корреляции зависимости Y от Х.

Решение. Для упрощения вычислений перейдем к новым переменным - условным вариантам (ui, vi), воспользовавшись формулами при

Для удобства перепишем данную таблицу в новых обозначениях:

Вывод: Корреляционная зависимость между величинами Х и Y - прямая и сильная.

Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от У), например, линейную модель, необходимо определить конкретные значения коэффициентов модели. При различных значениях а и b можно построить бесконечное число зависимостей, т.е. на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.

Линейную функцию ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов. В методе наименьших квадратов требуется, чтобы еi, разность между измеренными yi и вычисленными по уравнению значениям Yi, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:

Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:

Если разделить обе части нормальных уравнений на n, то получим:

При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии и вычисляют по формуле:

Полученная прямая является оценкой для теоретической линии регрессии. Имеем:

Регрессия может быть прямой (b больше 0) и обратной (b меньше 0). Прямая регрессия означает, что при росте одного параметра, значения другого параметра тоже увеличиваются. А обратная, что при росте одного параметра, значения другого параметра уменьшаются.

Пример 1. Результаты измерения величин X и Y даны в таблице:

Предполагая, что между X и Y существует линейная зависимость, способом наименьших квадратов определить коэффициенты a и b. Решение. Здесь n=5:

Решая эту систему, получим:

Пример 2. Имеется выборка из 10 наблюдений экономических показателей (X) и (Y).

Требуется найти выборочное уравнение регрессии Y на X. Построить выборочную линию регрессии Y на X.

Решение. 1. Проведем упорядочивание данных по значениям xi и yi. Получаем новую таблицу:

Для упрощения вычислений составим расчетную таблицу, в которую занесем необходимые численные значения.

Согласно формуле, вычисляем коэффициента регрессии:

Нанесем на координатной плоскости точки (xi; yi) и отметим прямую регрессии.

На графике видно, как располагаются наблюдаемые значения относительно линии регрессии. Для численной оценки отклонений yi от Yi, где yi наблюдаемые, а Yi определяемые регрессией значения, составим таблицу:

Значения Yi вычислены согласно уравнению регрессии. Заметное отклонение некоторых наблюдаемых значений от линии регрессии объясняется малым числом наблюдений. При исследовании степени линейной зависимости Y от X число наблюдений учитывается. Сила зависимости определяется величиной коэффициента корреляции.