Лекция№1 основные положения корреляционного анализа

ТЕМА № 7

Лекция 9

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Лекция№1 Главные ПОЛОЖЕНИЯ КОРРЕЛЯЦИОННОГО АНАЛИЗА


План: 1. Линейная парная регрессия
2. Коэффициент корреляции

3. Проверка значимости и интервальная оценка характеристик связи


Диалектический подход к исследованию природы и общества просит рассмотрения явлений в их связи и непрестанном изменении Лекция№1 основные положения корреляционного анализа.

Понятия корреляции и регрессии появились посреди XIX в. благодаря работам британских статистиков Ф. Гальтона и К. Пирсона. 1-ый термин произошел от латинского «correlatio» — соотношение, связь. 2-ой термин (от лат. «regressio» — движение Лекция№1 основные положения корреляционного анализа вспять) введен Ф. Гальтоном, который, изучая зависимость меж ростом родителей и их малышей, нашел явление «регрессии к среднему» — у малышей, родившихся у очень больших родителей, рост имел тенденцию быть поближе к Лекция№1 основные положения корреляционного анализа средней величине.

В естественных науках нередко идет речь о многофункциональной зависимости (связи), когда каждому значению одной переменной соответствует полностью определенное значение другой (к примеру, скорость свободного падения тела в вакууме зависимо от времени Лекция№1 основные положения корреляционного анализа и т.п.).

В экономике почти всегда меж переменными величинами есть зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а огромное количество вероятных значений другой переменной. По другому Лекция№1 основные положения корреляционного анализа говоря, каждому значению одной переменной соответствует определенное (условное) рассредотачивание другой переменной. Такая зависимость получила заглавие статистической (либо стохастической, вероятностной).

Появление понятия статистической связи обусловливается тем, что зависимая переменная подвержена воздействию ряда Лекция№1 основные положения корреляционного анализа неконтролируемых либо неучтенных причин, также тем, что измерение значений переменных безизбежно сопровождается некими случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности Лекция№1 основные положения корреляционного анализа и т.п.

В силу неоднозначности статистической зависимости меж Y и X для исследователя, а именно, представляет энтузиазм усредненная по x схема зависимости, т.е. закономерность в изменении условного математического ожидания МХ(Y) (математического Лекция№1 основные положения корреляционного анализа ожидания случайной переменной Y, вычисленного в предположении, что переменная X приняла значение х зависимо от х.

Определение. ^ Корреляционной зависимостью меж 2-мя переменными величинами именуется многофункциональная зависимость меж значениями какой-то из Лекция№1 основные положения корреляционного анализа них и условным математическим ожиданием другой.

Корреляционная зависимость может быть представлена в виде:

Мх(Y)=φ(x) (1) либо МY(X)=φ(y) (2)

Уравнения (1) и (2) именуются модельными уравнениями регрессии (либо просто уравнениями регрессии) соответственно Y по Лекция№1 основные положения корреляционного анализа X и X по Y, функции φ(х) и ψ(у) - модельными функциями регрессии (либо функциями регрессии), а их графики — модельными линиями регрессии (либо линиями регрессии).

Для отыскания модельных уравнений регрессии, вообщем говоря, следует Лекция№1 основные положения корреляционного анализа знать закон рассредотачивания двумерной случайной величины (Х,Y). На практике исследователь, обычно, располагает только подборкой пар значений (хi, уi) ограниченного объема. В данном случае речь может идти об оценке (приближенном выражении) по Лекция№1 основные положения корреляционного анализа выборке функции регрессии. Таковой лучшей (в смысле способа меньших квадратов) оценкой является выборочная линия (кривая) регрессии Y по X:

(3)

где yх — условная (групповая) средняя переменной Y при фиксированном значении переменной Х= х; b Лекция№1 основные положения корреляционного анализа0,b1…bp — характеристики кривой.

Аналогично определяется выборочная линия (кривая) регрессии Х по Y:

(4)

где ху — условная (групповая) средняя переменной X при фиксированном значении переменной Y = у; c0,c1,...,cp — характеристики кривой Лекция№1 основные положения корреляционного анализа.

Уравнения (3), (4) именуют также выборочными уравнениями регрессии соответственно Y по X и X по Y.

Статистические связи меж переменными можно учить способами корреляционного и регрессионного анализа.

Основной задачей регрессионного анализа является Лекция№1 основные положения корреляционного анализа установление формы и исследование зависимости меж переменными. Основной задачей корреляционного анализа — выявление связи меж случайными переменными и оценка ее тесноты.


^ 1. Линейная парная регрессия


Данные о статистической зависимости комфортно задавать в виде корреляционной таблицы.

Разглядим в Лекция№1 основные положения корреляционного анализа качестве примера зависимость меж дневной выработкой продукции Y (т) и величиной главных производственных фондов X (млн руб.) для совокупы 50 однотипных компаний (табл. 1).

В предстоящем ради сокращенности там, где это разумеется по смыслу, мы Лекция№1 основные положения корреляционного анализа нередко и выборочные уравнения (полосы) регрессии будем именовать просто уравнениями (линиями) регрессии.

(В таблице через хi и уj обозначены середины соответственных интервалов, а ni и nj — соответственно их частоты).

Изобразим Лекция№1 основные положения корреляционного анализа полученную зависимость графически точками координатной плоскости (рис. 1). Такое изображение статистической зависимости именуется полем корреляции.

Таблица 1






Рис. 1


Для каждого значения хi (i = 1,2,...,l), т.е. для каждой строчки корреляционной таблицы вычислим групповые средние

(5)

где nij — частоты Лекция№1 основные положения корреляционного анализа пар (хi, уj ) и , m — число интервалов по переменной Y. Вычисленные групповые средние поместим в последнем столбце корреляционной таблицы и изобразим графически в виде ломаной, именуемой эмпирической линией регрессии Y по Лекция№1 основные положения корреляционного анализа X (рис. 1).

Аналогично для каждого значения yj (j = 1,2,...,m) по формуле

(6)

вычислим групповые средние х, (см. нижнюю строчку корреляционной таблицы), где , l - число интервалов по переменной X.

По виду ломаной можно представить Лекция№1 основные положения корреляционного анализа наличие линейной корреляционной зависимости Y по X меж 2-мя рассматриваемыми переменными, которая графически выражается тем поточнее, чем больше объем подборки (число рассматриваемых компаний) п:

(7)

Потому уравнение регрессии (3) будем находить в виде:

(8)

Найдем формулы расчета Лекция№1 основные положения корреляционного анализа неведомых характеристик уравнения линейной регрессии. С этой целью применим способ меньших квадратов, согласно которому неведомые характеристики Ь0 и Ь1 выбираются таким макаром, чтоб сумма квадратов отклонений эмпирических групповых средних Лекция№1 основные положения корреляционного анализа вычисленных по формуле (5), от значений , отысканных по уравнению регрессии (8), была малой:

(9)

На основании нужного условия экстремума функции 2-ух переменных S = S(Ь0, b1,) приравниваем нулю ее личные производные, т.е.



откуда после преобразований получим Лекция№1 основные положения корреляционного анализа систему обычных уравнений для определения характеристик линейной регрессии:

(10)

Беря во внимание (5), преобразуем выражения:



Сейчас с учетом (7), разделив обе части уравнений (10) на п, получим систему обычных уравнений в виде:

(11

где надлежащие средние определяются по Лекция№1 основные положения корреляционного анализа формулам:



Подставляя значение Ь0 = - Ьx из первого уравнения системы (11) в уравнение регрессии (8), получим

Коэффициент Ь1 в уравнении регрессии, именуемый выборочным коэффициентом регрессии (либо просто коэффициентом регрессии) У по X, будем обозначать Лекция№1 основные положения корреляционного анализа эмблемой Ьух. Сейчас уравнение регрессии Y по X запишется так:



Коэффициент регрессии У по X указывает, на сколько единиц в среднем меняется переменная Y при увеличении переменной X на одну единицу.

Решая Лекция№1 основные положения корреляционного анализа систему (12.11), найдем



где — выборочная дисперсия переменной X:



μ — выборочный корреляционный момент либо выборочная ковариация:



Рассуждая аналогично и полагая уравнение регрессии (4) линейным, можно привести его к виду:



— выборочный коэффициент регрессии (либо просто коэффициент регрессии) X Лекция№1 основные положения корреляционного анализа по Y, показывающий, на сколько единиц в среднем меняется переменная X при увеличении переменной У на одну единицу,



—выборочная дисперсия переменной Y.

Потому что числители в формулах (17) и (21) для Ьyx и Ьxy совпадают Лекция№1 основные положения корреляционного анализа, а знаменатели — положительные величины, то коэффициенты регрессии Ьyx и Ьxy , имеют однообразные знаки, определяемые знаком μ. Из уравнений регрессии (16) и (20) следует, что коэффициенты Ьyx и 1/Ьxy определяют угловые коэффициенты (тангенсы углов Лекция№1 основные положения корреляционного анализа наклона) к оси oх соответственных линий регрессии, пересекающихся в точке (,) (см. рис. 3).


^ 2. Коэффициент корреляции


Перейдем к оценке тесноты корреляционной зависимости. Разглядим более принципиальный для практики и теории случай линейной зависимости вида (16).

На 1-ый Лекция№1 основные положения корреляционного анализа взор подходящим измерителем тесноты связи Y от X является коэффициент регрессии Ьуx ибо, как уже отмечено, он указывает, на сколько единиц в среднем меняется Y, когда X возрастает на одну единицу. Но Лекция№1 основные положения корреляционного анализа Ьуx находится в зависимости от единиц измерения переменных. К примеру, в приобретенной ранее зависимости он возрастет в 1000 раз, если величину главных производственных фондов X выразить не в млн руб., а в тыс Лекция№1 основные положения корреляционного анализа. руб. Разумеется, что для «исправления» Ьуx как показателя тесноты связи нужна такая стандартная система единиц измерения, в какой данные по разным чертам оказались бы сравнимы меж собой. Статистика знает такую систему единиц Лекция№1 основные положения корреляционного анализа. Эта система употребляет в качестве единицы измерения переменной ее среднее квадратическое отклонение S.

Представим уравнение (16) в эквивалентном виде:

(28)

В этой системе величина

(29)

указывает, на сколько величин Sy поменяется в среднем Y, когда X Лекция№1 основные положения корреляционного анализа возрастет на одно Sx Величина r является показателем тесноты связи и именуется выборочным коэффициентом корреляции (либо просто коэффициентом корреляции).

На рис. 2 приведены две корреляционные зависимости переменной Y по X. Разумеется, что в Лекция№1 основные положения корреляционного анализа случае а) зависимость меж переменными наименее тесноватая и коэффициент корреляции должен быть меньше, чем в случае б), потому что точки корреляционного поля а) далее отстоят от полосы регрессии, чем точки поля б Лекция№1 основные положения корреляционного анализа). Несложно созидать, что r совпадает по знаку с Ьуx (а означает, и с Ьху).



Рис. 2

Если r > 0 (Ьух>0, Ьху>0), то корреляционная связь меж переменными именуется прямой, если r< О (Ьуx <0, Ьху<0) — оборотной. При прямой (оборотной Лекция№1 основные положения корреляционного анализа) связи повышение одной из переменных ведет к повышению (уменьшению) условной (групповой) средней другой.

Беря во внимание (17), формулу для r представим в виде:



Отсюда видно, что формула для r симметрична относительно Лекция№1 основные положения корреляционного анализа 2-ух переменных, т.е. переменные Х и Y можно поменять местами. Тогда аналогично (24) можно записать:



Обнаружив произведение обеих частей равенств (29) и (31), получим



т.е. коэффициент корреляции r переменных X и Y есть средняя геометрическая Лекция№1 основные положения корреляционного анализа коэффициентов регрессии, имеющая их символ.


^ 3. Проверка значимости и интервальная оценка характеристик связи


В практических исследовательских работах о тесноте корреляционной зависимости меж рассматриваемыми переменными судят практически не по величине генерального коэффициента корреляции ρ (который обычно неизвестен Лекция№1 основные положения корреляционного анализа), а по величине его выборочного аналога r. Потому что r рассчитывается по значениям переменных, случаем попавшим в подборку из генеральной совокупы, то в отличие от параметра ρ параметр r — величина случайная Лекция№1 основные положения корреляционного анализа.

Пусть вычисленное значение r = 0. Появляется вопрос, разъясняется ли это вправду имеющейся линейной корреляционной связью меж переменными X и Y в генеральной совокупы либо является следствием случайности отбора переменных в подборку (т.е. при другом отборе Лекция№1 основные положения корреляционного анализа может быть, к примеру, r = 0 либо изменение знака r).

Обычно в этих случаях проверяется догадка H0: об отсутствии линейной корреляционной связи меж переменными в генеральной совокупы, т.е. H0: ρ = 0. При справедливости этой Лекция№1 основные положения корреляционного анализа догадки статистика



имеет t-распределение Стьюдента с k = n—2 степенями свободы. Потому догадка H0 отвергается, т.е. выборочный коэффициент корреляции r значимо (значительно) отличается от нуля, если



где t1-a;k — табличное значение Лекция№1 основные положения корреляционного анализа t-критерия Стьюдента, определенное на уровне значимости α при числе степеней свободы k = n-2.

Для важного коэффициента корреляции r целенаправлено отыскать доверительный интервал (интервальную оценку), который с данной надежностью γ = 1 - α содержит (поточнее, «накрывает») неведомый Лекция№1 основные положения корреляционного анализа генеральный коэффициент корреляции ρ. Для построения такового интервала следует знать выборочное рассредотачивание коэффициента корреляции r, которое при ρ = 0 несимметрично и очень медлительно (с ростом п) сходится к нормальному рассредотачиванию. Потому прибегают к Лекция№1 основные положения корреляционного анализа специально подобранным функциям от r, которые сходятся к отлично изученным рассредотачиваниям. В большинстве случаев для подбора функции используют Z-преобразование Фишера. . (45)

Рассредотачивание уже при маленьких п является приближенно обычным с математическим ожиданием Лекция№1 основные положения корреляционного анализа

(46)

дисперсией (47)

Потому сначала строят доверительный интервал для М{z):




где t1-α — нормированное отклонение z, определяемое при помощи функции Лапласа:



При определении границ доверительного интервала для ρ, т.е. для перехода от z к ρ, существует особая Лекция№1 основные положения корреляционного анализа таблица. При ее отсутствии переход может быть осуществлен по формуле:



где th z— гиперболический тангенс z.

Если коэффициент корреляции значим, то коэффициенты регрессии bух и bху также значимо отличаются от нуля, а интервальные Лекция№1 основные положения корреляционного анализа оценки для соответственных генеральных коэффициентов регрессии βyx и βxy могут быть получены по формулам, основанным на том, что статистики (byx-βxy)/Sbyx , (bxy-βyx)\Sbxy имеют t-распределение Стьюдента Лекция№1 основные положения корреляционного анализа с (n—2) степенями свободы:

(51)

(52)


^ 3. Корреляционное отношение и индекс корреляции


Введенный выше коэффициент корреляции, как уже отмечено, является всеполноценным показателем тесноты связи только в случае линейной зависимости меж переменными. Но нередко появляется необходимость в достоверном показателе интенсивности Лекция№1 основные положения корреляционного анализа связи при хоть какой форме зависимости.

Для получения такового показателя вспомним правило сложения дисперсий:

(53, 54)

— средняя групповых дисперсий , либо остаточная диспепсия —



(55, 56, 57) межгрупповая дисперсия

Остаточной дисперсией определяют ту часть колеблемости Y, которая появляется из-за Лекция№1 основные положения корреляционного анализа изменчивости неучтенных причин, не зависящих от X. Межгрупповая дисперсия выражает ту часть варианты У, которая обоснована изменчивостью X. Величина

(58)

получила заглавие эмпирического корреляционного дела У по X. Чем теснее связь, тем большее воздействие Лекция№1 основные положения корреляционного анализа на вариацию переменной обосновывает изменчивость X.по сопоставлению с неучтенными факторами, тем выше nух. Величина nух. , именуемая эмпирическим коэффициентом детерминации, указывает, какая часть общей варианты У обоснована вариацией X. Аналогично вводится эмпирическое Лекция№1 основные положения корреляционного анализа корреляционное отношение X по У:

(59)

Отметим главные характеристики корреляционных отношений (при довольно большенном объеме подборки п):

1.Корреляционное отношение есть неотрицательная величина, не превосходящая 1: 0< η < 1.

2. Если η = 0, то корреляционная связь отсутствует. Если η = 1, то меж переменными Лекция№1 основные положения корреляционного анализа существует многофункциональная зависимость.

3. η ух ≠ η ху, т.е. в отличие от коэффициента корреляции r (для которого r ху= r ух = r) при вычислении корреляционного дела значительно, какую переменную считать независящей, а какую — зависимой Лекция№1 основные положения корреляционного анализа.

Эти характеристики справедливы как для эмпирических корреляционных отношений n, так и для теоретических — R .

Эмпирическое корреляционное отношение η ух является показателем рассеяния точек корреляционного поля относительно эмпирической полосы регрессии, выражаемой ломаной, соединяющей Лекция№1 основные положения корреляционного анализа значения . Но в связи с тем, что закономерное изменение нарушается случайными зигзагами ломаной, возникающими вследствие остаточного деяния неучтенных причин, η ух преумножает тесноту связи. Потому вместе с η ух. рассматривается показатель тесноты связи Rух Лекция№1 основные положения корреляционного анализа, характеризующий рассеяние точек корреляционного поля относительно полосы регрессии ух (12.3). Показатель Rух получил заглавие теоретического корреляционного дела либо индекса корреляции Y по X.

(60)

где дисперсии и определяются по формулам (54) —(56), в каких Лекция№1 основные положения корреляционного анализа групповые средние , изменены условными средними, вычисленными по уравнению регрессии (16). Подобно Rух вводится и индекс корреляции X по Y

(61)

Достоинством рассмотренных характеристик η и R будет то, что они могут быть вычислены при хоть какой форме Лекция№1 основные положения корреляционного анализа связи меж переменными. Хотя η и завышает тесноту связи по сопоставлению с R, но для его вычисления не надо знать уравнение регрессии. Корреляционные дела η и R связаны с коэффициентом корреляции r последующим образом Лекция№1 основные положения корреляционного анализа:

(62)

Можно показать, что в случае линейной модели (3), т.е. зависимости, yx-=byx(x-) индекс корреляции Rух равен коэффициенту корреляции r (по абсолютной ветчине): Ryx = | r |

.

Коэффициент детерминации R2, равный квадрату индекса корреляции (для парной Лекция№1 основные положения корреляционного анализа линейной модели — r2), указывает долю общей варианты зависимой переменной, обусловленной регрессией либо изменчивостью объясняющей переменной. Чем поближе R2 к 1, тем теснее наблюдения примыкают к полосы регрессии, тем лучше регрессия обрисовывает Лекция№1 основные положения корреляционного анализа зависимость переменных.

Расхождение меж η2 и R2 (либо r2) может быть применено для проверки линейности корреляционной зависимости.

^ Проверка значимости корреляционного дела η базирована на том, что статистика

(63)

(где m — число интервалов по группировочному признаку Лекция№1 основные положения корреляционного анализа) имеет F-распределение Фишера—Снедекора с k1=m — 1 и k2=n — m степенями свободы. Потому η значимо отличается от нуля, если F >Fα,, k1, k2, где Fα,, k1, k2— табличное значение F-критерия Лекция№1 основные положения корреляционного анализа на уровне значимости α при числе степеней свободы k1 и k2.

Индекс корреляции R 2-ух переменных значим, если значение статистики

(64)

больше табличного Fα,, k1, k2, где к1 = 1 и к.2 = п — 2.

lekciya-razvitie-rechi-uchashihsya-v-period-obucheniya-gramote.html
lekciya-relyacionnaya-model-dannih-svyazi-v-rbd.html
lekciya-rosnano-ferment-innovacionnogo-razvitiya.html