Метод корреляционного анализа: пример. корреляционный анализ

Как вы можете рассчитать корреляцию с помощью Excel? — 2019

a:

Корреляция измеряет линейную зависимость двух переменных. Измеряя и связывая дисперсию каждой переменной, корреляция дает представление о силе взаимосвязи. Или, говоря иначе, корреляция отвечает на вопрос: сколько переменная A (независимая переменная) объясняет переменную B (зависимую переменную)?

Формула корреляции

Корреляция объединяет несколько важных и связанных статистических понятий, а именно дисперсию и стандартное отклонение. Разница — дисперсия переменной вокруг среднего, а стандартное отклонение — квадратный корень дисперсии.

Формула:

Поскольку корреляция требует оценки линейной зависимости двух переменных, то, что действительно необходимо, — это выяснить, какая сумма ковариации этих двух переменных и в какой степени такая ковариация отраженные стандартными отклонениями каждой переменной в отдельности.

Общие ошибки с корреляцией

Самая распространенная ошибка — предполагать, что корреляция, приближающаяся +/- 1, статистически значима. Считывание, приближающееся +/- 1, безусловно увеличивает шансы на фактическую статистическую значимость, но без дальнейшего тестирования это невозможно узнать.

Статистическое тестирование корреляции может усложняться по ряду причин; это совсем не так просто. Критическое предположение о корреляции состоит в том, что переменные независимы и связь между ними является линейной.

Вторая наиболее распространенная ошибка — забыть нормализовать данные в единую единицу. Если вычислять корреляцию по двум бетам, то единицы уже нормализованы: сама бета является единицей

Однако, если вы хотите скорректировать акции, важно, чтобы вы нормализовали их в процентном отношении, а не изменяли цены. Это происходит слишком часто, даже среди профессионалов в области инвестиций

Для корреляции цен на акции вы, по сути, задаете два вопроса: каково возвращение за определенное количество периодов и как этот доход коррелирует с возвратом другой безопасности за тот же период? Это также связано с тем, что корреляция цен на акции затруднена: две ценные бумаги могут иметь высокую корреляцию, если доход составляет ежедневно процентов за последние 52 недели, но низкая корреляция, если доход ежемесячно > изменения за последние 52 недели. Какая из них лучше»? На самом деле нет идеального ответа, и это зависит от цели теста. ( Улучшите свои навыки excel, пройдя курс обучения Excel в Академии Excel. ) Поиск корреляции в Excel

Существует несколько методов расчета корреляции в Excel

Самый простой способ — получить два набора данных и использовать встроенную формулу корреляции:

Это удобный способ расчета корреляции между двумя наборами данных. Но что, если вы хотите создать корреляционную матрицу во множестве наборов данных? Для этого вам нужно использовать плагин анализа данных Excel. Плагин можно найти на вкладке «Данные» в разделе «Анализ».

Выберите таблицу возвратов. В этом случае наши столбцы имеют названия, поэтому мы хотим установить флажок «Ярлыки в первой строке», поэтому Excel знает, как обрабатывать их как заголовки. Затем вы можете выбрать вывод на том же листе или на новом листе.

Как только вы нажмете enter, данные будут автоматически сделаны. Вы можете добавить текст и условное форматирование, чтобы очистить результат.

Распространенные заблуждения

Корреляция и причинно-следственная связь

Традиционное изречение, что « корреляция не подразумевает причинной связи », означает, что корреляция не может использоваться сама по себе для вывода причинной связи между переменными. Это изречение не должно означать, что корреляции не могут указывать на потенциальное существование причинно-следственных связей. Однако причины, лежащие в основе корреляции, если таковые имеются, могут быть косвенными и неизвестными, а высокие корреляции также пересекаются с отношениями идентичности ( тавтологиями ), где не существует причинных процессов. Следовательно, корреляция между двумя переменными не является достаточным условием для установления причинно-следственной связи (в любом направлении).

Корреляция между возрастом и ростом у детей довольно прозрачна с точки зрения причинно-следственной связи, но корреляция между настроением и здоровьем людей менее очевидна. Приводит ли улучшение настроения к улучшению здоровья, или хорошее здоровье приводит к хорошему настроению, или и то, и другое? Или в основе обоих лежит какой-то другой фактор? Другими словами, корреляция может рассматриваться как свидетельство возможной причинной связи, но не может указывать на то, какой может быть причинная связь, если таковая имеется.

Простые линейные корреляции

Четыре набора данных с одинаковой корреляцией 0,816

Коэффициент корреляции Пирсона указывает на силу линейной связи между двумя переменными, но его значение, как правило, не полностью характеризует их взаимосвязь. В частности, если условное среднее из дано , обозначается , не является линейным в , коэффициент корреляции будет не в полной мере определить форму .
Y{\ displaystyle Y}Икс{\ displaystyle X}E⁡(Y∣Икс){\ displaystyle \ operatorname {E} (Y \ mid X)}Икс{\ displaystyle X}E⁡(Y∣Икс){\ displaystyle \ operatorname {E} (Y \ mid X)}

Прилегающие изображение показывает разброс участков из квартет энскомбы , набор из четырех различных пар переменных , созданный Фрэнсис Анскомбами . Четыре переменные имеют одинаковое среднее значение (7,5), дисперсию (4,12), корреляцию (0,816) и линию регрессии ( y  = 3 + 0,5 x ). Однако, как видно на графиках, распределение переменных сильно отличается. Первый (вверху слева), кажется, распределен нормально и соответствует тому, что можно было бы ожидать, рассматривая две коррелированные переменные и следуя предположению о нормальности. Второй (вверху справа) не распространяется нормально; хотя можно наблюдать очевидную взаимосвязь между двумя переменными, она не является линейной. В этом случае коэффициент корреляции Пирсона не указывает на то, что существует точная функциональная связь: только степень, в которой эта связь может быть аппроксимирована линейной зависимостью. В третьем случае (внизу слева) линейная зависимость идеальна, за исключением одного выброса, который оказывает достаточное влияние, чтобы снизить коэффициент корреляции с 1 до 0,816. Наконец, четвертый пример (внизу справа) показывает другой пример, когда одного выброса достаточно для получения высокого коэффициента корреляции, даже если связь между двумя переменными не является линейной.
у{\ displaystyle y}

Эти примеры показывают, что коэффициент корреляции как сводная статистика не может заменить визуальный анализ данных. Иногда говорят, что примеры демонстрируют, что корреляция Пирсона предполагает, что данные следуют нормальному распределению , но это верно лишь отчасти. Корреляцию Пирсона можно точно рассчитать для любого распределения, имеющего конечную матрицу ковариаций , которая включает большинство распределений, встречающихся на практике. Однако коэффициент корреляции Пирсона (вместе с выборочным средним и дисперсией) является достаточной статистикой только в том случае, если данные взяты из многомерного нормального распределения. В результате коэффициент корреляции Пирсона полностью характеризует взаимосвязь между переменными тогда и только тогда, когда данные взяты из многомерного нормального распределения.

Измерение корреляции

Статистика предлагает измерять корреляционную взаимосвязь с помощью числового коэффициента, в который будет входить ее величина и направление. Чем больше это число, тем сильнее взаимная связь параметров. Направление взаимодействия будет определяться знаком коэффициента корреляции.

Отрицательный знак будет означать, что уменьшение одной величины ведет к росту другой. Например, уменьшение количества бензина, выдаваемого полицейским патрульным машинам, приведет к повышенным показателям хулиганских действий на улицах.

При отсутствии корреляции говорят, что она равна нулю. Уровень воды в реке во время паводка может быть никак не связан с количеством заболеваний гриппом.

Виды корреляции

По значимости – высокозначимая, значимая и незначимая.

Виды

чему равен r

Высокозначимая

r соответствует уровню статистической значимости p<=0,01

Значимая

r соответствует p<=0,05

Незначимая

r не достигает p>0,1

Отрицательная (уменьшение значения одной переменной ведет к росту уровня другой: чем больше у человека фобий, тем меньше вероятность занять руководящую должность) и положительная (если рост одной величины влечет за собой увеличение уровня другой: чем больше нервничаешь, тем больше вероятность заболеть). Если связи между переменными нет, то тогда такая корреляция называется нулевой.

Линейная (когда одна величина возрастает или убывает, вторая тоже увеличивается или уменьшается) и нелинейная (когда при изменении одной величины характер изменения второй невозможно описать с помощью линейной зависимости, тогда применяются другие математические законы – полиномиальной, гиперболической зависимости).

По силе

виды

значение r

сильная

r > 0,70

средняя

0,50 < r < 0,69

умеренная

0,30 < r < 0,49

слабая

0,20 < r < 0,29

очень слабая

r < 0,19

Что представляет собой корреляция?

Термин «корреляция» пугает многих людей и кажется чем-то сложным и непонятным. Однако на практике ничего устрашающего в ней нет. Корреляция – это всего лишь показатель, показывающий зависимость между событиями или объектами.

Данное понятие применяется в экономическом и статистическом анализе, психологии, биологии, математике. Например, если посмотреть на небо и увидеть густые и темные тучи, то можно прийти к выводу, что скоро пойдет дождь. Однако наше умозаключение не дает 100% гарантии. Это и является отличительной особенностью корреляцию от линейной зависимости.

Что такое корреляция?

Корреляция – это взаимозависимость случайных факторов. Она отображает приближенную взаимосвязь и не дает точных ответов. Например, в стране выросла безработица и увеличилось количество преступлений. Можно предположить, что на второй фактор повлияли первый. Но на уровень преступности также влияют воспитание, менталитет людей, уровень образования. Составить точный прогноз нереально, так как всегда есть дополнительные факторы.

Связь может быть трех видов:

  • сильной;
  • слабой;
  • отсутствовать.

Например, повышения уровня радиации негативно сказывается на здоровье человека. Межу событиями имеется обратно пропорциональная зависимость – увеличения радиации приводит к ухудшению здоровья. Коэффициент корреляции при этом имеет отрицательное значение.

Некоторые события или явления практически никак не связаны друг с другом. Утром у вас разрядился телефон, а вчера в маршрутке вам на ногу наступил мужчина. Ни одно из событий не влияет на другое. В данном случае коэффициент корреляции равен нулю.

Если коэффициент больше нуля и стремится к 1, то такая корреляция называется положительной. Она показывает прямую взаимосвязь между событиями. Например, чем выше уровень знаний, тем выше шансы поступить в университет на бюджет.

Корреляция цены на нефть и курса доллара

Цена на нефть и курс американского доллара имеют обратную корреляционную связь. При росте стоимости «черного золота» курс доллара снижается и наоборот.

США обладают самой мощной промышленностью в мире и на ее нужды требуется просто огромное количество нефти.  В то же время Штаты входят в первую десятку стран по уровню добычи этого природного ресурса. При этом США значительную часть добытой нефти экспортируют, что вызывает дефицит в промышленности. Для его покрытия американцы ежегодно импортируют свыше 8 миллиардов баррелей нефти.

Данного объема достаточно для влияния на курс национальной валюты. Увеличение спроса США на нефть приводит к увеличению цены на международном рынке. В свою очередь, рост объемов импорта влияет на стоимость произведенных товаров. В итоге на валютном рынке наблюдается избыток американской валюты, и ее курс начинает падать.

Корреляция в управлении инвестиционными активами

Корреляция активно используется инвесторами при формировании и управлении своих инвестиционных портфелях. Логично, что нельзя держать все свои активы в одном месте. Диверсификация позволяет значительно снизить риски.

Например, инвестор покупает акции одной крупной компании и нескольких мелких. Коэффициент корреляции акций гигантов отрасли и небольших предприятий приблизительно равен +0,8. Это достаточно большое значение и оно характеризует прямую зависимость между объектами. При падении акции крупной компании существует большая вероятность, что стоимость ценных бумаг небольших фирм тоже снизится существенная. В данном случае лучше подбирать активы таким образом, что корреляционные связи были минимальными.

Для этого, например, инвестор может составить свой портфель из акций и облигаций или акций и казначейских векселей. Облигации между собой, как и акции, также имеют прямую связь. Их коэффициент еще выше. Однако между облигациями и акциями такой зависимости нет, что и позволяет инвестору снизить риски.

Также наблюдается зависимость между странами и даже регионами. Чем ближе они находятся, тем выше коэффициент корреляции. Например, для Канады и США он составляет 0,9. В то же время для Японии и США он на 4 десятых меньше. Собственно, инвестору более выгодно покупать активы эмитентов из разных регионов.

Золото и ценные бумаги практически не коррелируются. Однако серебро и золото очень зависимы друг от друга, так же, как и евро и американский доллар. Их использование в рамках одного инвестиционного портфеля нецелесообразно.

Корреляция – это удобный и необходимый инструмент в различных сферах жизни. Она не является панацеей, но позволяет достаточно точно установить причинно-следственные связи между явлениями.

Похожие термины:

  • (serial correlation) Ситуация, когда значение переменной стохастического временного ряда не является независимым от значения, которое она имела в предшествующие периоды. Если x(t) – переменная временного р

  • Термин, принятый в статистике для определения степени зависимости между двумя переменными величинами. См. Correlation coefficient.

  • расходование большей пропорции денег на некоторые виды маркетинга с целью повысить эффективность всей программы.

  • (rank correlation) Метод проверки зависимости между двумя переменными с помощью определения корреляции их ранговых порядков. Этот метод может быть использован, если предполагается, что зависимость монот

  • Показатель степени линейной зависимости между двумя переменными величинами: Коэффициент корреляции может изменяться в пределах от +1 до -1. Если большим значениям одной величины соответствуют бол

  • число, показывающее степень тесноты корреляции (связи), измеряемое от (-1) до (+1).

  • характеризует тесноту связи между результатным показателем и набором факторных показателей:

  • математико-статистическая теория, изучающая зависимости вариации признака от окружающих условий.

  • характеризует тесноту связи между результативным показателем и набором факторных показателей.

  • показатель, указывающий на то, какой процент изменения зависимой переменной обусловливается изменениями независимой переменной- Этот показатель варьирует от 0 до 1. Нуль означает, что изменения н

  • величина, рассчитываемая по наблюдениям над двумя случайными величинами и характеризующая степень их связи; отношение ковариации двух случайных величин к произведению их средних квадратических

  • отношение алгебраического дополнения Aij, умноженного на минус единицу, к корню квадратному из произведения алгебраических дополнений элементов rij, и rji матрицы выборочных коэффициентов корреляци

  • (rx. y.z) — используется в анализе хозяйственной деятельности при изучении связи между показателями х и у, когда требуется исключить воздействие третьего показателя z, выступающего как общий фактор

  • (Correlation) — разновидность причинно-следственной связи, когда между изучаемыми признаками нельзя установить, какой из них является причиной, а какой следствием, т.е. причинность имеет скрытый характе

  • соотношение, соответствие, зависимость между двумя случайными переменными, при этом каждому значению одной случайной переменной соответствует определенное условное математическое ожидание (ср

  • Графическое пре дставле н и е дан ных, при котором наблюдаемые значения одной переменной, соответствующие значениям другой переменной, наносятся на график в виде точек, не соединенных линиями. Диа

  • наиболее распространенный метод моделирования взаимосвязи показателей, когда зависимость между ними является стохастической (вероятностной).

  • способ установления линейной зависимости и тесноты связи между параметрами (численностью персонала и влияющими на нее факторами). Математический аппарат К. и р.а. подробно рассматривается в специ

  • раздел математической статистики, изучающий взаимную зависимость случайных величин.

  • Корреляционный риск — риск потерь в результате изменений в корреляции между финансовыми инструментами, валютами или рынками.

9.1.2. Проверка статистических гипотез о связи переменных

Выборочный коэффициент корреляции оценивает подразумеваемую исследователем реальную связь между переменными. Как и в случае оценки среднего значения, нас интересуют два вопроса: (1) Насколько сильна связь между переменными; (2) Насколько надежна наша оценка. Сила связи между переменными по всей генеральной совокупности существует объективно. Если ее измерять корреляцией, то она будет выражаться числом от −1 до 1. Выборочная корреляция этих переменных будет колебаться вокруг истинного показателя силы связи. Трудность состоит в том, что, получив выборочную корреляцию, мы не можем знать, ни насколько она отклоняется от истинного значения, ни даже в какую сторону. В случае корреляции оценка обычно выражается в терминах значимости.

Проделаем небольшое упражнение.

Упражнение 9.1.2(1). Возьмите две симметричные монеты достоинством в один рубль и один евро. Проведите серию четырех подбрасываний пары монет и запишите результаты в виде ​\( (x_1, y_1),\dots,(x_4, y_4) \)​ , полагая

​\( x_i=0 \)​, если рубль выпал цифрой;

​\( x_i=1 \), если рубль выпал гербом;

​\( y_i=0 \), если евро выпал цифрой;

​\( y_i=1 \), если евро выпал гербом.

Подсчитайте коэффициент корреляции Пирсона. Истинная корреляция между результатами двух монет равна, разумеется, нулю. Повторите процедуру несколько раз и убедитесь, что нулевое значение выборочного коэффициента корреляции выпадает примерно один раз из трех. При многократном повторении опыта можно убедиться, что его результат имеет некоторое распределение, симметричное относительно нуля. Это распределение зависит от объема выборки n: чем больше n, тем меньше дисперсия распределения, тем ближе к нулю ее вероятные значения.

В таблице 9.1.2(2) приведены двухсторонние квантили распределения выборочного коэффициента корреляции по Пирсону для ​\( n=10 \)​. Они рассчитаны для выборок, полученных испытаниями двух нормально распределенных случайных величин, теоретическая корреляция между которыми равна нулю. Дихотомический результат подбрасывания монеты не распределен нормально, однако некоторое представление о возможных результатах наших испытаний табличный квантиль все же дает.

Таблица 9.1.2(2) Двусторонние квантили распределения коэффициента Пирсона для n = 10

​\( \alpha \)​ 0.05 0.025 0.01 0.005
​\( r_\alpha(10) \)​ 0.497 0.576 0.658 0.709

Обычно при исследовании связи переменных статистической гипотезой ​\( H_0 \)​ будет гипотеза об отсутствии связи, т.е. о независимости переменных. Альтернативная гипотеза \( H_1 \)​ (т.е. гипотеза, к которой мы склоняемся, получив большие по модулю значения выборочной корреляции) будет утверждать только наличие связи . Можно оценить значимость относительно данного результата (полученной парной выборки) гипотез о других значениях теоретической корреляции, но это требует некоторых дополнительных усилий (см. подпараграф ). Если истинна гипотеза \( H_0 \)​, то выборочный коэффициент корреляции будет принимать значения, более или менее близкие к нулю. Если выборочная корреляция принимает достаточно большое по модулю значение, которому соответствует значимость, измеряемая маленьким числом, то мы склоняемся к гипотезе \( H_1 \)​ о наличии связи, но без указания точного значения теоретической корреляции.

Можно заметить, что если верна гипотеза  об отсутствии зависимости между случайными величинами, то выборочный коэффициент при \( n=10 \) может принимать тем не менее довольно большие значения, так что уровень значимости 0.05 для принятия гипотезы о зависимости случайных величин требует, чтобы выборочный коэффициент корреляции достигал почти 0.5 (см. ). В связи с этим надо иметь в виду, что даже выборочная корреляция, например 0.6, вполне может согласовываться с истинной корреляцией, равной 0.2 .

Парная корреляция

Этот термин употребляется для обозначения взаимоотношений между двумя определенными величинами. Известно, что расходы на рекламу в США в значительной мере влияют на объем ВВП этой страны. Коэффициент корреляции между данными величинами по итогам наблюдений, продолжавшихся в течение 20 лет, составляет 0,9699.

Более «приземленный» пример – связь между посещаемостью страницы онлайн-магазина и объемом его продаж.

И уж, конечно, вряд ли кто-нибудь станет отрицать наличие зависимости, существующей между температурой воздуха и продажами пива или мороженого.

Корреляция – это взаимозависимость двух величин; коэффициент корреляции – это объективный показатель, определяющий степень этой взаимозависимости. Коэффициент корреляции может быть и положительным, и отрицательным. Что касается ценных бумаг, то они крайне редко бывают абсолютно коррелированными.

Наши группы:

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже. Исходные данные для корреляционного анализа

Профессиональная группа курение смертность
Фермеры, лесники и рыбаки 77 84
Шахтеры и работники карьеров 137 116
Производители газа, кокса и химических веществ 117 123
Изготовители стекла и керамики 94 128
Работники печей, кузнечных, литейных и прокатных станов 116 155
Работники электротехники и электроники 102 101
Инженерные и смежные профессии 111 118
Деревообрабатывающие производства 93 113
Кожевенники 88 104
Текстильные рабочие 102 88
Изготовители рабочей одежды 91 104
Работники пищевой, питьевой и табачной промышленности 104 129
Производители бумаги и печати 107 86
Производители других продуктов 112 96
Строители 113 144
Художники и декораторы 110 139
Водители стационарных двигателей, кранов и т. д. 125 113
Рабочие, не включенные в другие места 133 146
Работники транспорта и связи 115 128
Складские рабочие, кладовщики, упаковщики и работники разливочных машин 105 115
Канцелярские работники 87 79
Продавцы 91 85
Работники службы спорта и отдыха 100 120
Администраторы и менеджеры 76 60
Профессионалы, технические работники и художники 66 51

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector