Линейный коэффициент корреляции пирсона

Корреляционный анализ

Цель коэффициента корреляции заключается в том, чтобы определить интенсивность соотношения, которое существует между известными наборами данных или другой известной информации.

Значение коэффициента корреляции может варьироваться от -1 до 1, и полученный результат определяет, является ли корреляция отрицательной или положительной.

Чтобы интерпретировать коэффициент, необходимо знать, что 1 означает, что корреляция между переменными является полной положительной, а -1 означает, что она является полной отрицательной. Если коэффициент равен 0, то переменные не зависят друг от друга.

Понятие о ложности корреляции

Существует множество определений термина. Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей.

https://www.youtube.com/watch?v=ytadvertiseru

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

Литература

  • Гмурман В. Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. — 10-е издание, стереотипное. — Москва: Высшая школа, 2004. — 479 с. — ISBN 5-06-004214-6.
  • Елисеева И. И., Юзбашев М. М. Общая теория статистики: Учебник / Под ред. И. И. Елисеевой. — 4-е издание, переработанное и дополненное. — Москва: Финансы и Статистика, 2002. — 480 с. — ISBN 5-279-01956-9.
  • Общая теория статистики: Учебник / Под ред. Р. А. Шмойловой. — 3-е издание, переработанное. — Москва: Финансы и Статистика, 2002. — 560 с. — ISBN 5-279-01951-8.
  • Суслов В. И., Ибрагимов Н. М., Талышева Л. П., Цыплаков А. А. Эконометрия. — Новосибирск: СО РАН, 2005. — 744 с. — ISBN 5-7692-0755-8.

Коэффициент корреляции Спирмена

В статистике также существует коэффициент корреляции Спирмена, который назван в честь статистика Чарльза Эдварда Спирмена (Spearman).

Цель этого коэффициента заключается в измерении интенсивности соотношения между двумя переменными, независимо от того, являются ли они линейными или нет.

Корреляция Спирмена служит для оценки того, может ли интенсивность взаимосвязи между двумя анализируемыми переменными быть измерена монотонной функцией (математическая функция, которая сохраняет или инвертирует соотношение начальной последовательности).

Как считать коэффициент корреляции Спирмена

Линейный коэффициент корреляции пирсона

Расчет коэффициента корреляции Спирмена уже немного отличается от предыдущей. Для этого необходимо организовать имеющиеся данные в следующую таблицу.

Линейный коэффициент корреляции пирсона

1. У вас должны быть две пары данных, соответствующих друг другу. Вы должны внести их в эту таблицу. Например, дирекция ресторана хочет узнать, есть ли связь между количеством заказов бутылок воды и количеством заказов десертов. Директор взял наугад данные 4-х столиков. Таким образом, у него получились две пары данных: где “Data А” — это заказы десертов, а “Data B” — заказы воды (т. е. первый столик заказал 7 десертов и 8 бутылок воды, второй — 6 десертов и 3 бутылки с водой и т. д.):

Линейный коэффициент корреляции пирсона

2. В столбце «Ranking А» мы будем классифицировать наблюдения, которые находятся в «Data А», нарастающим образом: «1» является самым низким значением в столбце и n (общее количество наблюдений) — самым высоким значением в столбце «Data А». В нашем примере это:

Линейный коэффициент корреляции пирсона

3. Сделайте то же самое позиционирование (классификацию наблюдений) для второго столбца “Data B”, записав это в столбце “Ranking B”.

Линейный коэффициент корреляции пирсона

4. В столбце «d» посчитайте разницу между двумя последними столбцами-ранкингами (A — B). Знак здесь учитывать не нужно (в следующем шаге узнаете почему).

Линейный коэффициент корреляции пирсона

5. Возведите во вторую степень каждое из значений, полученное в столбце «d».

Линейный коэффициент корреляции пирсона

6. Сделайте сумму всех данных, которые у вас получились в столбце «d2». Это будет Σd². В нашем примере Σd² = 0+1+0+1 = 2.

7. Теперь используем формулу Спирмена.

Линейный коэффициент корреляции пирсона

В нашем случае n = 4, мы это видим по количеству пар данных (соответствует числу наблюдений).

Линейный коэффициент корреляции пирсона

8. И наконец, замените данные в формуле.

Линейный коэффициент корреляции пирсона

Наш результат равен 0,8 или 80 %. Это означает, что переменные имеют положительную корреляцию.

Т. е. заказы бутылок воды и заказы десертов клиентами этого ресторана зависят друг от друга (т. к. коэффициент 0,8 далёк от 0), но не полностью (т. к. коэффициент очень близок к 1, но не равен 1). А положительная, так как коэффициент больше чем 0, это означает, что количество воды и количество десертов увеличиваются вместе, а не наоборот (т. е. чем выше количество потребляемой воды, тем выше количество потребляемых десертов).

Об этой статье

Соавтор(ы):
Штатный редактор wikiHow

В создании этой статьи участвовала наша опытная команда редакторов и исследователей, которые проверили ее на точность и полноту. wikiHow тщательно следит за работой редакторов, чтобы гарантировать соответствие каждой статьи нашим высоким стандартам качества. Количество просмотров этой статьи: 57 429.

Категории: Математика

English:Find the Correlation Coefficient

Español:hallar el coeficiente de correlación

Italiano:Trovare il Coefficiente di Correlazione

Français:trouver le coefficient de corrélation

Português:Encontrar o Coeficiente de Correlação

Bahasa Indonesia:Mencari Koefisien Korelasi

Печать

Свойства коэффициента корреляции r

  • r изменяется в интервале от —1 до +1.

  • Знак r означает, увеличивается ли одна переменная по мере того, как увеличивается другая (положительный r), или уменьшается ли одна переменная по мере того, как увеличивается другая (отрицательный r).

  • Величина r указывает, как близко расположены точки к прямой линии. В частности, если r = +1 или r= —1, то имеется абсолютная (функциональная) корреляция по всем точкам, лежащим на линии (практически это маловероятно); если , то линейной корреляции нет (хотя может быть нелинейное соотношение). Чем ближе r к крайним точкам (±1), тем больше степень линейной связи.

  • Коэффициент корреляции r безразмерен, т. е. не имеет единиц измерения.

  • Величина r обоснована только в диапазоне значений x и y в выборке. Нельзя заключить, что он будет иметь ту же величину при рассмотрении значений x или y, которые значительно больше, чем их значения в выборке.

  • x и y могут взаимозаменяться, не влияя на величину r ().

  • Корреляция между x и у не обязательно означает соотношение причины и следствия.

  •  представляет собой долю вариабельности у, которая обусловлена линейным соотношением с x.

Расчет доверительного интервала для коэффициента корреляции в Excel

В Эксель нет готовых функций для расчета доверительного интервала коэффициента корреляции, как для средней арифметической. Поэтому план такой:

— Делаем преобразование Фишера для r. — На основе нормальной модели рассчитываем доверительный интервал для z. — Делаем обратное преобразование Фишера из z в r.

Удивительно, но для преобразования Фишера в Excel есть специальная функция ФИШЕР.

Линейный коэффициент корреляции пирсона

Стандартная ошибка z легко подсчитывается с помощью формулы.

Линейный коэффициент корреляции пирсона

Используя функцию НОРМ.СТ.ОБР, определим квантиль нормального распределения. Доверительную вероятность возьмем 95%.

Линейный коэффициент корреляции пирсона

Значение 1,96 хорошо известно любому опытному аналитику. В пределах ±1,96σ от средней находится 95% нормально распределенных величин.

Используя z, стандартную ошибку и квантиль, легко определим доверительные границы z.

Линейный коэффициент корреляции пирсона

Последний шаг – обратное преобразование Фишера из z назад в r с помощью функции Excel ФИШЕРОБР. Получим доверительный интервал коэффициента корреляции.

Линейный коэффициент корреляции пирсона

Нижняя граница 95%-го доверительного интервала коэффициента корреляции – 0,724, верхняя граница – 0,953.

Надо пояснить, что значит значимая корреляция. Коэффициент корреляции статистически значим, если его доверительный интервал не включает 0, то есть истинное значение по генеральной совокупности наверняка имеет тот же знак, что и выборочная оценка.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

https://www.youtube.com/watch?v=ytaboutru

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.