Open
Close

Корреляционно-регрессионный анализ в Excel: инструкция выполнения. Многофакторный корреляционно-регрессионный анализ

Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.

Впервые это понятие было введено Пирсоном в 1908 году.

Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:

  • - теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи;
  • - выбор формы связи (уравнения регрессии);
  • - отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию);
  • - вычисление параметров уравнения регрессии и коэффициентов корреляции;
  • - проверка адекватности полученной модели;
  • - интерпретация полученных результатов.

На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос - рост - пол; синдром пингвина).

Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.

Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.

Отбор факторов может быть проведен на основании:

метода пошагового исключения;

метода пошаговой регрессии.

Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.

Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков, даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.

При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции () характеризующие тесноту связи между факторами и:

Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.

Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным - коэффициентам регрессии.

Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков. Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%):

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:

где - коэффициент регрессии при - том факторе, - среднее значение -того фактора, - среднее значение результативного признака.

· коэффициенты показывают, на какую часть среднего квадратического отклонения изменяется результативный признак с изменением - того факторного признака на величину его среднего квадратического отклонения.

где - среднее квадратическое отклонение -того фактора, - среднее квадратическое отклонение результативного признака.

Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака.

Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.

В рамках многомерного корреляционного анализа рассматривают две типовые задачи:

  • - оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных;
  • - оценка тесноты связи одной переменной со всеми остальными.

В рамках решения первой задачи определяются частные коэффициенты корреляции - показатели, характеризующие тесноту связи между тым и тым признаками при элиминации всех остальных признаков.

В многомерном корреляционном анализе рассматриваются две типовые задачи:

Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.

Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.

Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.

Для их определения может быть использована матрица выборочных коэффициентов корреляции:

где - количество признаков, - выборочный парный коэффициент корреляции.

Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:

где - определитель матрицы

С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.

Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле:

где - алгебраическое дополнение соответствующего элемента корреляционной матрицы

Частный коэффициент корреляции может принимать значения от -1 до 1.

Многофакторный корреляционно - регрессионный анализ

Таблица 4. Исходные данные.

уровеньбезраб-цы

доходнасел-я

индексцен

индексВРП

Для анализа необходимо из нескольких факторов произвести предварительный отбор факторов для регрессионной модели. Сделаем это по итогам расчета коэффициента корреляции, т.е. возьмем те факторы, связь которых с результативным признаком будет выражена в большей степени. Рассмотрим следующие факторы:

Доход на душу населения - x 1 (%)

Индекс потребительских цен - x 2 (%)

Индекс ВРП - x 3 (%)

Рассчитаем коэффициент корреляции для линейной связи и для имеющихся факторов - x 1 , x 2 и x 3:

Для фактора x 1 получаем коэффициент корреляции: r 1 = 0,042

Для фактора x 2 получаем коэффициент корреляции: r 2 =0,437

Для фактора x 3 получаем коэффициент корреляции: r 3 =0,151

По полученным данным можно сделать вывод о том, что:

1)Связь между x 1 и y отсутствует, так как коэффициент корреляции меньше 0,15. Таким образом, возникает необходимость исключить данный фактор из дальнейших исследований.

2)Связь между x 2 и y прямая (так как коэффициент корреляции положительный) и умеренная, так как она находится между 0,41 и 0,50. Поэтому, будем использовать фактор в дальнейших расчётах.

3)Связь между x 3 и y прямая (так как коэффициент корреляции положительный) и слабая. Тем не менее, будем использовать фактор в дальнейших расчетах.

Таким образом, два наиболее влиятельных фактора - Индекс потребительских цен - x 2 и индекс ВРП - x 3 . Для имеющихся факторов x 2 и x 3 составим уравнение множественной регрессии.

Проверим факторы на мультиколлинеарность, для чего рассчитаем коэффициент корреляции r x2x3 . Подставив имеющиеся данные (из таблицы 10) в формулу, имеем следующее значение: r x2x3 =0,747. Полученный коэффициент говорит об очень высокой связи, поэтому дальнейший анализ по обоим факторам вестись не может. Однако в учебных целях продолжим анализ.

Проводим оценку существенности связи с помощью коэффициента множественной корреляции: R=0,512

Так как R < 0,8, то связь признаем не существенной, но, тем не менее, в учебных целях, проводим дальнейшее исследование.

Уравнение прямой имеет следующий вид: y = a + bx 1 + cx 3

Для определения параметров уравнения необходимо решить систему:

Решив систему, получим уравнение: Y=41,57-0,042 x 1 -0,183x 3

Для данного уравнения найдем ошибку аппроксимации:

А> 5%, то данную модель нельзя использовать на практике.

Проведем оценку параметров на типичность. Рассчитаем значения величин:

m a =0,886; m b =0,0003; m с =0,017;

t a =41,57/0,886=46,919; t b =-0,042/0,0003=-140; t c =-0,183/0,017=-10,77.

Сравним полученные выше значения t для б = 0,05 и числа степеней свободы (n-2) с теоретическим значением t-критерия Стьюдента, который t теор = 2,1788. Расчетные значения t b и t с < t теор, значит данные параметры не значимы и данное уравнение не используется для прогнозирования.

где: n - число уровней ряда; к - число параметров; R - коэффициент множественной корреляции.

После расчета получаем: F=1,41

Сравним F расч с F теор для числа степеней свободы U 1 = 9 и U 2 = 2, видим, что 1,41 < 19,40, то есть F расч < F теор - связь признаётся не существенной, то есть корреляция между факторами x 2 , x 3 и у не существенна.

В подразд. 10.2 была рассмотрена однофакторная линейная модель. Но чаще всего изучаемые нами природные и общественные явления зависят не от одного, а от целого ряда факторов. Корреляционная зависимость результативного признака от нескольких факторных признаков называется уравнением множественной регрессии. Рассмотрим линейную многофакторную модель, к ней часто можно свести криволинейные модели.

Главные задачи, которые стоят при построении уравнения множественной регрессии таковы:

  • 1) надо отобрать те факторные признаки, которые оказывают наибольшее влияние на признак следствия;
  • 2) правильно выбрать регрессионную модель.

Если данные пункты выполнены правильно, то все остальное дело техники. Мы рассматриваем пока линейную многофакторную регрессию, поэтому задача выбора модели перед нами не стоит, нужно только определиться с количеством факторных признаков, влияющих на признак следствие. Решение первой задачи основано на рассмотрении матрицы парных коэффициентов корреляции (о ней будет сказано ниже). Принимаются во внимание и частные коэффициенты детерминации для каждого факторного признака. Их значения говорят об объясняющей способности каждого из факторных признаков. Заметим, что уравнение многофакторной регрессии должно быть как можно проще. Чем проще тип уравнения, тем очевиднее интерпретация параметров, входящих в него, и лучше его использование с целью анализа и прогноза. Поэтому чаще всего используют линейное уравнение множественной регрессии, которое имеет вид

Параметры а р а 2 , ..., а т, Ъ уравнения множественной регрессии (10.55) можно находить по МНЕ. Затем с помощью корреляционного анализа делают проверку адекватности полученной модели и, если модель адекватна, делают ее интерпретацию. Так поступают в том случае, если заранее известно, например на основании предшествующих исследований, что все основные признаки-факторы, оказывающие влияние на результативный признак, учтены (мы не говорим о выборе типа модели, так как пока рассматриваем только линейную модель).

Если мы не уверены в том, что учтены все факторные признаки, или, наоборот, учтены лишние, сначала проводим корреляционный анализ (находим парные коэффициенты корреляции, частные коэффициенты корреляции, совокупный коэффициент множественной корреляции), а потом, уточнив модель, строим уравнение множественной линейной регрессии по МНК.

Покажем, как находятся параметры a v а 2 , ..., а т, Ъ уравнения регрессии (10.55) по МНК. Условие МНК в этом случае имеет вид

Теперь подставляем (10.55) в (10.56) и получаем

Теперь записываем необходимые условия экстремума функции, содержащей (m + 1) переменных (a v а 2 ,..., а т, Ъ).

Находим частные производные функции F по неизвестным параметрам а 1 ,а 2 ,а т,Ъ и получаем следующее:

После преобразования системы (10.59) получаем так называемую систему нормальных уравнений:

Решая систему нормальных уравнений (10.60) (они линейные), определяем неизвестные параметры множественной линейной регрессионной модели: a v а 2 , ..., а т, Ъ. Разумеется, решение системы проводят на ПЭВМ, например, методом Гаусса или одной из его модификаций (в том случае, если количество неизвестных параметров не превышает нескольких сотен). В том случае, если количество искомых параметров несколько тысяч, можно использовать итерационные методы решения системы нормальных уравнений (10.60), например, методом Якоби или методом Зейделя.

После нахождения неизвестных параметров уравнения множественной линейной регрессии надо провести проверку ее адекватности с помощью корреляционного анализа.

Так как на изучаемый результативный признак влияет не один факторный признак, а несколько факторных признаков), то появляется задача изолированного измерения тесноты связи результативного признака с каждым из признаков- факторов, а также задача определения тесноты связи между результативным признаком и всеми факторными признаками, включенными в модель множественной регрессии.

При рассмотрении линейной однофакторной модели мы находим один парный коэффициент корреляции (вернее его оценку) между признаком-следствием и факторным признаком. В случае множественной линейной модели число парных коэффициентов корреляции будет равно:

где C (2 m+1) - число сочетаний из (m + 1) по два, а (га +1)! - читается (га + 1) факториал и равно: (га + 1)! = 1-2-...-га(га + 1). Заметим, что 0! = 1. Все коэффициенты парной корреляции рассчитываются по формуле (10.15) (их называют еще коэффициентами нулевого порядка).

Найденные коэффициенты парной корреляции удобно записывать в виде матрицы коэффициентов парной корреляции. Напомним, что матрица - это прямоугольная таблица, содержащая некоторые математические объекты, в данном случае коэффициенты парной корреляции. Число строк и столбцов матрицы коэффициентов парной корреляции будет равно, т. е. она будет квадратной. Так как коэффициент парной корреляции - это симметричная мера связи (f i; - = при i*j), то матрица коэффициентов корреляции записывается или как верхняя, или как нижняя треугольная, на главной диагонали которой расположены единицы, так как и т. д. Поэтому матрица коэффициентов парной корреляции (коэффициентов нулевого порядка) имеет вид:


На основе коэффициентов нулевого порядка (см. (10.61)) можно найти коэффициенты частной корреляции первого порядка, если элиминируется (устраняется) корреляция с одной переменной. Например,

В формуле (10.62) исключаем влияние признака х.

На основе коэффициентов частной корреляции первого порядка определяют коэффициенты частной корреляции второго порядка. В этом случае элиминируется корреляция с двумя переменными, например,

В формуле (10.63) исключили влияние факторов х 2 и х 3 . На основе коэффициентов частной корреляции второго порядка находят коэффициенты частной корреляции третьего порядка и т. д. Коэффициенты частной корреляции являются мерами линейной зависимости и принимают значения от -1 до 1. Квадрат коэффициента частной корреляции называется коэффициентом частной детерминации.

Показателем тесноты связи, которая устанавливается между признаком-следствием и факторными признаками факторных признаков) является совокупный коэффициент множественной корреляции К уХ]Х2 ... Хт. Если известны парные коэффициенты корреляции, то его можно найти по формуле:

Квадрат совокупного коэффициента множественной корреляции Ry X X х , который называется совокупным коэффициентом множественной детерминации, показывает, какая доля вариации результативного признака объясняется влиянием факторных признаков, которые включены в уравнение множественной регрессии. Возможные значения -R yX]X2 ... Xm и Щ х х х могут находиться в пределах отрезка . Следовательно, чем ближе Щ Хг х 2 _ х к единице, тем вариация результативного признака в большей мере характеризуется влиянием учтенных факторных признаков.

Подробно рассмотрим частный случай линейной множественной регрессии - двухфакторную линейную регрессию и приведем конкретный числовой пример.

Уравнение двухфакторной линейной регрессии записывается следующим образом:

где - расчетные значения результативного признака;

х и, х 2 . - полученные в результате проведения статистического наблюдения значения факторных признаков;

a v а 2 , Ъ - параметры уравнения регрессии, подлежащие определению.

Для нахождения параметров уравнения регрессии вида (10.65) используем МНК. Условие МНК в данном случае имеет вид:

Функция (10.66) - функция трех независимых аргументов: a v а 2 , Ъ. Запишем необходимое условие экстремума этой функции:

После нахождения частных производных имеем:

После преобразования системы (10.68) получаем систему нормальных уравнений:

Для решения системы (10.69) используем метод Крамера (о методе Крамера можно причитать, например, в ). Для нахождения решения системы (10.69) можно применить и метод Гаусса.

Сначала находим определитель системы, который не должен равняться нулю:

Определители A v A , А 3 расписываются так же, как определитель А (эти разложения не приведены, чтобы не загромождать вывод).

Зная значение определителей А, А х, Д 2 , А, находим искомые параметры уравнения регрессии по следующим формулам:

Теперь найдем коэффициенты парной корреляции (коэффициенты нулевого порядка), их количество будет равно

Поэтому матрица коэффициентов парной корреляции (10.61) в данном случае будет иметь вид:

В нашем случае парные коэффициенты корреляции находятся по формулам:

А ковариации (корреляционные моменты) находятся из выражений:


Коэффициенты частной корреляции первого порядка в данном случае находятся по следующим формулам:

г определяется по уже приведенной формуле (10.62)


(в этой формуле исключено влияние факторного признака а^).


(в этой формуле исключено влияние результативного признака у).

Теперь по формуле (10.64) определяем совокупный коэффициент множественной корреляции. Для случая двухфакторной линейной модели формула (10.64) примет вид:

Как уже говорилось, величина Щ Х]Х. 2 называется совокупным коэффициентом множественной детерминации. Он показывает, какая часть дисперсии результативного признака у объясняется за счет двух учтенных факторных признаков и х 2 . Заметим, что на основе парных коэффициентов корреляции и средних квадратических отклонений можно определить параметры линейной двухфакторной регрессионной модели вида (10.65) (см. например ).

Теперь приведем конкретный числовой пример. Для этого используем исходные данные примера 10.2. Поместим эти данные в табл. 10.12.

По данным табл. 10.12 вычисляем коэффициенты системы нормальных уравнений (10.69):


Таблица 10.12

Преступления (у {)

Хищения оружия

Административные правонарушения (х,.)

Следовательно, система нормальных уравнений (10.69) имеет вид:

Решаем полученную систему (10.76) методом Крамера:

Теперь по формулам (10.70) находим искомые параметры уравнения регрессии:

Поэтому получаем следующее уравнение двухфакторной линейной регрессии.

Многофакторный регрессионный анализ в оценке недвижимости

Регрессия в математической статистике – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.

Как известно, явления общественной жизни складываются под воздействием не одного, а целого ряда факторов , т. е. эти явления многофакторны. Между факторами существуют сложные взаимосвязи, поэтому их влияние комплексное и его нельзя рассматривать как простую сумму изолированных влияний.

Факторный анализ позволяет определить, какое влияние на изучаемый показатель оказало изменение того или иного фактора.

При моделировании функциональных факторных моделей необходимо соблюдать ряд требований:

1. Факторы, включаемые в модель, должны реально существовать и иметь конкретноефизическое значение.

2. Факторы, которые входят в систему факторного анализа, должны иметь причинно-следственную связь с изучаемым показателем.

3. Факторная модель должна обеспечивать измерение влияния конкретного фактора на общий результат.

Метод применяется для построения прогноза какого-либо показателя с учетом существующих связей между ним и другими показателями. Сначала в результате качественного анализа выделяется k факторов (X 1 , X 2 ,..., X k), влияющих на изменение прогнозируемого показателя Y , и строится чаще всего линейная регрессионная зависимость типа:

где Ai - коэффициенты регрессии, i = 1,2,...,k.

Значения коэффициентов регрессии (A 0 , A 1 , A 2 ,..., A k) определяются в результате сложных математических вычислений , которые обычно проводятся с помощью стандартных статистических компьютерных программ.

Определяющее значение при использовании данного метода имеет нахождение правильного набора взаимосвязанных признаков, направления причинно-следственной связи между ними и вида этой связи, которая не всегда линейна.

Для успешного применения данного метода необходимо выполнение трёх основных условий :

Ø наличие обширной и достоверной базы данных о сделках купли-продажи с описанием физических и экономических характеристик объектов недвижимости, участвовавших в этих сделках;

Ø наличие критерия подбора аналогов из вышеуказанной базы данных;

Ø существование методологии расчёта соответствующих поправок к стоимости выбранных аналогов.

В основном, при подборе аналогов и внесении поправок эксперты-оценщики руководствуются профессиональным опытом и интуицией , что является заведомо субъективным подходом . Привлечение современных статистических методов для обработки и анализа данных, используемых для сопоставления, позволяет снизить влияние субъективизма оценщика.

Для решения задач, связанных с обработкой и анализом статистической информации применяются методы математической статистики. Эти методы позволяют выявить закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, давать оценку вероятностей их выполнения или невыполнения . В последнее время статистические методы, а в частности методы корреляционного и регрессионного анализа, находят всё более широкое применение в оценочной деятельности, правда. Оценщику, владеющему принципами, методами и навыками статистического моделирования, значительно легче обосновать результаты оценки, а также спрогнозировать рыночную стоимость на базе имеющихся данных.

После того, как выявлены наиболее существенные факторы, влияющие на стоимость рассматриваемых объектов, встает вопрос о подборе вида функциональной зависимости, т. е. виде многофакторной регрессионной модели. От правильности этого выбора зависит то, насколько построенная модель будет адекватна изучаемому явлению, т. е. будет ли она соответствовать ему при заданном уровне точности, что, в свою очередь, предопределяет практическую ценность получаемых результатов.

Запас кривых для описания статистических данных, которыми располагает математический анализ, бесконечно разнообразен . Для выбора той из них, которая наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинной зависимости между изучаемым показателем и обуславливающими его факторами, исходят из соображений самого различного характера - логического, графического и статистического.

При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров , т. к. для их оценки требуется меньшее количество эмпирических данных.

На практике наибольшее распространение получили линейные (1), степенные (2) и экспоненциальные (3) формы зависимости.

y = a 0 + a 1 x 1 + a 2 x 2 + … + a n x n (1)

y = a 0 x 1 a1 x 2 a2 … x n an (2)

– это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения. Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету. Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.

Что такое корреляционная диаграмма?

Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка. Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно. Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат). Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.

Допущения и упрощения

Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.

Линейная корреляция Пирсона

Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1. Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа. Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.

Свойства и предостережения

Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:

  1. Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
  2. Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
  3. Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.

Коэффициент ранговой корреляции Спирмана

Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.

Корреляционно-регрессионный анализ: пример

Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.

Данный тип анализа имеет следующие преимущества:

  • Непараметрическая форма отношений между исследуемыми величинами.
  • Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.

Единственное требование данного типа анализа – это необходимость конвертации исходных данных.

Проблемы применения

В основе корреляционно-регрессионного анализа лежат следующие предположения:

  • Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
  • В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
  • При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
  • Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.

Зависимость и причинно-следственная связь

Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями. Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы. Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.

Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной. Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы. Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.

Зачем использовать регрессионный анализ?

Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром. Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи. В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:

  1. Выбор правильной модели с помощью метода наименьших квадратов.
  2. Выведение уравнения, описывающего влияние изменения независимой переменной на другую.

Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.

Линейная и множественная регрессия

Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии. Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков. Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.

Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:

  • Зависимость между независимой и влияющими на нее характеристиками является линейной.
  • Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
  • Гомоскедастичность и нормальность рядов чисел.

Применение корреляционно-регрессионного анализа

Существует три основных случая использования данного метода:

  1. Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
  2. Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
  3. Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.

Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.