Теоретическое корреляционное отношение определяется по формуле. Коэффициент корреляции и коэффициент детерминации

💖 Нравится? Поделись с друзьями ссылкой

3. Эмпирическое корреляционное отношение рассчитывается по формуле

Межгрупповая дисперсия, характеризующая величину из квадрат отклонения групповых средних от общего среднего результативного признака.

Общая дисперсия, показывающая среднюю величину из квадратов отклонений значения результативного признака от их среднего уровня.

Построим таблицу для вычисления общей дисперсии (см. табл.8)

Таблица 8

Таблица данных для определения общей дисперсии

N,п/п Расходы на продукты питания
1 21 441
2 16 256
3 26,1 681,21
4 28 784
5 26 676
6 22,5 506,25
7 27,6 761,76
8 35 1225
9 23,9 571,21
10 22,5 506,25
11 15 225
12 25,2 635,04
13 29 841
14 21,4 457,96
15 24,9 620,01
16 24,8 615,04
17 16 256
18 23,6 556,96
19 27,2 739,84
20 35 1225
21 17 289
22 23,8 566,44
23 22,6 510,76
24 25 625
25 27 729
26 30 900
27 35 1225
28 25,4 645,16
29 27,2 739,84
30 26,3 691,69
Всего 750 19502,42

Общая дисперсия результативного признака вычисляется по формуле:

=

Межгрупповая дисперсия вычисляется по формуле:

Построим вспомогательную таблицу для вычисления данных (см. табл.9)


Таблица 9

Таблица данных для расчета межгрупповой дисперсии

Номер группы Количество домохозяйств, шт Расходы на продукты питания, тыс.руб
Всего В среднем на одно домохозяйство
f
1 28-40 3 48 16 -9 81 243
2 40-52 5 105 21 -4 16 80
3 52-64 12 300 25 0 0 0
4 64-76 6 165 27,5 2,5 6,25 37,5
5 76-88 4 132 33 8 64 256
Всего 30 750 616,5

Вывод: связь между факторами весьма тесная, т.к. принимает значения от 0,9 до 0,99.

Коэффициент детерминации – это квадрат эмпирического корреляционного отношения. Следовательно,

(81,9%)

Вывод: выпуск продукции на данных предприятиях на 81,9% зависит от фондоотдачи и на 18,1 % от других факторов.

Задание 3

По результатам выполнения задания 1 с вероятностью 0,9543 определите:

1. Ошибку выборки среднего валового дохода на одного члена домохозяйства в год и границы, в которых будет он находиться в генеральной совокупности.

2. Ошибку выборки доли домохозяйств с уровнем валового дохода менее 52 тыс руб. и более млн. руб. и границы, в которых будет находиться генеральная доля.

1. Ошибка выборки для средней определяем по формуле:

, где

дисперсия выборочной совокупности;

n- численность выборки;

t- коэффициент доверия, который определяется по таблице значений интегральной функции Лапласа при заданной вероятности. В данном случае при Р=0,954 значение t=2.

N-число единиц в генеральной совокупности, N=6000 шт.

Рассчитаем дисперсию. Данные представим в виде таблицы (см. табл.11).

Таблица 11

Данные для расчета дисперсии уровня фондоотдачи

Номер группы Группировка домохозяйств по валовому доходу Количество домохозяйств, шт
f
1 28-40 3 34 -25,1 630,01 1890,03
2 40-52 5 46 -13,1 171,61 858,05
3 52-64 12 58 -1,1 1,21 14,52
4 64-76 6 70 10,9 118,81 712,86
5 76-88 4 82 22,9 524,41 2097,64
Всего 30 5573,1

Решение. Для расчета групповых дисперсий вычислим средние по каждой группе:

Шт.; шт.

Промежуточные расчеты дисперсий по группам представлены в табл. 3.2. Подставив полученные значения в формулу (3.4), получим:

Средняя из групповых дисперсий

Затем рассчитаем межгрупповую дисперсию. Для этого предварительно определим общую среднюю как среднюю взвешенную из групповых средних:

Теперь определим межгрупповую дисперсию

Таким образом, общая дисперсия по правилу сложения дисперсий:

Проверим полученный результат, вычислив общую дисперсию обычным способом:

На основании правила сложения дисперсий можно определить показатель тесноты связи между группировочным (факторным) и результативным признаками. Он называется эмпирическим корреляционным отношением, обозначается («эта») и рассчитывается по формуле

Для нашего примера эмпирическое корреляционное отношение

.

Величина 0,86 характеризует существенную связь между группировочным и результативным признаками.

Величина называется коэффициентом детерминации и показывает долю межгрупповой дисперсии в общей дисперсии.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается, как и для долей количественных признаков, посредством вычисления и анализа следующих видов дисперсий.

Внутригрупповая дисперсия доли определяется по формуле

. (3.17)

Средняя из внутригрупповых дисперсий рассчитывается как

. (3.18)

Формула межгрупповой дисперсии имеет следующий вид:

, (3.19)

где n i – численность единиц в отдельных группах;

– доля изучаемого признака во всей совокупности, которая определяется по формуле

Общая дисперсия имеет вид

. (3.21)

Три вида дисперсии связаны между собой следующим образом:

. (3.22)

Пример 3.4

Определим групповые дисперсии, среднюю из групповых, межгрупповую и общую дисперсии по данным табл. 3.3.

Таблица 3.3

Численность и удельный вес одной из категорий
крупного рогатого скота фермерских хозяйств района



Решение

Определим долю дойных коров в целом по трем хозяйствам:

Общая дисперсия доли дойных коров:

Внутригрупповые дисперсии:

; ; .

Средняя из внутригрупповых дисперсий:

Межгрупповая дисперсия:

Используя правило сложения дисперсий, получаем: 0,1025+0,0031=0,1056. Пример решен правильно.

Пример 3.5

По данным выборочного обследования заработной платы работников бюджетной сферы получены следующие показатели (табл. 3.4).

Таблица 3.4

Определите:

1) среднюю заработную плату по двум отраслям;

2) дисперсии заработной платы:

а) среднюю из групповых дисперсий (отраслевых),

б) межгрупповую (межотраслевую),

3) коэффициент детерминации;

4) эмпирическое корреляционное отношение.

Решение

1. Средняя заработная плата работников по двум отраслям рассчитывается по формуле (2.10):

руб.

2. Дисперсии заработной платы:

а) средняя из групповых дисперсий по (3.14)

б) межгрупповая дисперсия согласно (3.12)

в) общая дисперсия, полученная на основании правила сложения дисперсий (3.15):

3. Коэффициент детерминации равен величине

т.е. , или 44,24%.

Он показывает, что оплата труда на 44,24% зависит от отраслевой принадлежности работников и на 55,76% – от внутриотраслевых причин.

По формуле (3.16) эмпирическое корреляционное отношение ,

что свидетельствует о существенном влиянии на дифференциацию заработной платы отраслевых особенностей.

3.2. ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ

Задача 3.1

По распределению 60 рабочих по тарифному разряду имеются следующие данные (табл. 3.5).

Таблица 3.5

Определите:

1) средний тарифный разряд рабочих;

2) среднее линейное отклонение;

3) дисперсию;

4) среднее квадратическое отклонение;

5) коэффициент вариации.

Задача 3.2

По результатам экзаменационной сессии 1 и 2 курсов одного из вузов имеются следующие данные: на 1 курсе сдали сессию без двоек 85% студентов, на 2 курсе – 90%.

Определите на каждом курсе дисперсию доли студентов, успешно сдавших сессию.

Задача 3.3

Акционерные общества области по среднесписочной численности работающих на 1 января 2004 г. распределились следующим образом (табл. 3.6).

Таблица 3.6

Рассчитайте:

1) среднее линейное отклонение;

2) дисперсию;

3) среднее квадратическое отклонение;

4) коэффициент вариации.

Задача 3.4

Имеются данные о распределении семей сотрудников предприятия по количеству детей (табл. 3.7).

Таблица 3.7

Вычислите:

1) внутригрупповые дисперсии;

2) среднюю из внутригрупповых дисперсий;

3) межгрупповую дисперсию;

4) общую дисперсию.

Проверьте правильность проведенных расчетов с помощью правила сложения дисперсий.

Задача 3.5

Распределение стоимости продукции, предназначенной для экспорта по цехам предприятия, представлено следующими данными (табл. 3.8).

Таблица 3.8

Вычислите:

1) среднюю из внутригрупповых, межгрупповую и общую доли экспортной продукции;

2) коэффициент детерминации и эмпирическое корреляционное соотношение.

Задача 3.6

По данным обследования коммерческих банков города, 70% общего числа клиентов составили юридические лица со средним размером кредита 120 тыс. руб. и коэффициентом вариации 25%, а 20% – физические лица со средним размером ссуды 20 тыс. руб. при среднем квадратическом отклонении 6 тыс. руб.

Используя правила сложения дисперсий, определите тесноту связи между размером кредита и типом клиента, исчислив эмпирическое корреляционное отношение.

Раздел 4. Выборочное наблюдение

4.1. МЕТОДИЧЕСКИЕ УКАЗАНИЯ
И РЕШЕНИЕ ТИПОВЫХ ЗАДАЧ

Целью выборочного наблюдения является определение характеристик генеральной совокупности – генеральной средней ( о) и генеральной доли (р ). Характеристики выборочной совокупности – выборочная средняя () и выборочная доля () отличаются от генеральных характеристик на величину ошибки выборки (). Поэтому для определения характеристик генеральной совокупности необходимо вычислять ошибку выборки, или ошибку репрезентативности, которая определяется по формулам, разработанным в теории вероятностей для каждого вида выборки и способа отбора.

Собственно случайная и механическая выборки. При случайном повторном отборе предельная ошибка выборки для средней () и для доли () рассчитывается по формулам

; (4.1)

(4.2)

где – дисперсия выборочной совокупности;

n – численность выборки;

t – коэффициент доверия, который определяется по таблице значений интегральной функции Лапласа при заданной вероятности (P дов. ) (табл. П1).

При бесповторном случайном и механическом отборе предельная ошибка выборки вычисляется по формулам

; (4.3)

, (4.4)

где N – численность генеральной совокупности.

Пример 4.1

Для определения зольности угля в месторождении в порядке случайной выборки было обследовано 100 проб угля. В результате обследования установлено, что средняя зольность угля в выборке составляет 16%, среднее квадратическое отклонение – 5%. В десяти пробах зольность угля составила более 20%. С вероятностью 0,954 определите пределы, в которых будут находиться средняя зольность угля в месторождении и доля угля с зольностью более 20%.

Решение

Средняя зольность угля будет находиться в пределах

Для определения границ генеральной средней вычислим предельную ошибку выборки для средней по формуле (4.1):

. (4.5)

С вероятностью 0,954 можно утверждать, что средняя зольность угля в месторождении будет находиться в пределах 16% 1%, или 15% 17%.

Доля угля с зольностью более 20% будет находиться в пределах

Выборочная доля определяется по формуле

где m – доля единиц, обладающих признаком

Ошибку выборки для доли () вычислим по формуле (4.2):

или ±6%.

С вероятностью 0,954 можно утверждать, что доля угля с зольностью более 20% в месторождении будет находиться в пределах , или .

Пример 4.2

Для определения среднего срока пользования краткосрочным кредитом в банке была произведена 5%-ная механическая выборка, в которую попало 100 счетов. В результате обследования установлено, что средний срок пользования краткосрочным кредитом – 30 дней при среднем квадратическом отклонении 9 дней. В пяти счетах срок пользования кредитом превышал 60 дней. С вероятностью 0,954 определите пределы, в которых будут находиться срок пользования краткосрочным кредитом в генеральной совокупности и доля счетов со сроком пользования краткосрочным кредитом более 60 дней.

Решение

Средний срок пользования кредитом в банке находится в пределах

.

Так как выборка механическая, то ошибка выборки определяется по формуле (2.3):

дня.

С вероятностью 0,954 можно утверждать, что срок пользования краткосрочным кредитом в банке находится в пределах =30 дней 2 дня, или

28 дней дня.

Доля кредитов со сроком пользования более 60 дней находится в пределах

Выборочная доля составит

Ошибку выборки для доли определим по формуле (4.4):

или 4,2%.

С вероятностью 0,954 можно утверждать, что доля кредитов в банке со сроком пользования более 60 дней будет находиться в пределах или

Типическая выборка. При типическом (районированном) отборе генеральная совокупность разбивается на однородные типические группы, районы. Отбор единиц наблюдения в выборочную совокупность производится различными методами. Рассмотрим типическую выборку с пропорциональным отбором внутри типических групп.

Объем выборки из типической группы при отборе, пропорциональном численности типических групп, определяется по формуле

где n i – объем выборки из типической группы;

N i – объем типической группы.

Предельная ошибка выборочной средней и доли при бесповторном случайном и механическом способе отбора внутри типических групп рассчитывается по формулам

; (4.8)

, (4.9)

где – дисперсия выборочной совокупности.

Пример 4.3

Для определения среднего возраста мужчин, вступающих в брак, в районе была произведена 5%-ная типическая выборка с отбором единиц пропорционально численности типических групп. Внутри групп применялся механический отбор. Данные сведены в табл. 4.1.

Таблица 4.1

С вероятностью 0,954 определите пределы, в которых будет находиться средний возраст мужчин, вступающих в брак, и долю мужчин, вступающих в брак во второй раз.

Решение

Средний возраст вступления мужчин в брак находится в пределах

.

Средний возраст вступления мужчин в брак в выборочной совокупности определим по формуле средней взвешенной

= года.

Средняя выборочная дисперсия определяется по формуле
средней

=

Предельную ошибку выборки вычислим по формуле (4.8):

года.

С вероятностью 0,954 можно утверждать, что средний возраст мужчин, вступающих в брак, будет находиться в пределах года года, или

24 года года.

Доля мужчин, вступающих в брак во второй раз, будет находиться в пределах

Выборочную долю определим по формуле средней

или 14%.

Среднюю выборочную дисперсию альтернативного признака вычисляем по формуле

(4.12)

Ошибку выборки для доли определим по формуле (4.9):

или 6%.

С вероятностью 0,954 можно утверждать, что доля мужчин, вступающих в брак во второй раз, будет находиться в пределах , или .

Серийная выборка. При серийном способе отбора генеральную совокупность делят на одинаковые по объему группы – серии. В выборочную совокупность отбираются серии. Внутри серий производится сплошное наблюдение единиц, попавших в серию.

При бесповторном отборе серий предельные ошибки выборочной средней и доли определяются по формуле

, (4.13)

где – межсерийная дисперсия;

R – число серий в генеральной совокупности;

r – число отобранных серий.

Пример 4.4

В цехе предприятия 10 бригад рабочих. С целью изучения их производительности труда была осуществлена 20%-ная серийная выборка, в которую попали 2 бригады. В результате обследования установлено, что средняя выработка рабочих в бригадах составила 4,6 и 3 т. С вероятностью 0,997 определите пределы, в которых будет находиться средняя выработка рабочих цеха. т, или т.

Пример 4.5

На складе готовой продукции цеха находятся 200 ящиков деталей по 40 штук в каждом ящике. Для проверки качества готовой продукции была произведена 10%-ная серийная выборка. В результате выборки установлено, что доля бракованных деталей составляет 15%. Дисперсия серийной выборки равна 0,0049.

С вероятностью 0,997 определите пределы, в которых находится доля бракованной продукции в партии ящиков.

Решение

Доля бракованных деталей будет находиться в пределах

Определим предельную ошибку выборки для доли по формуле (4.13):

или 4,4%.

С вероятностью 0,997 можно утверждать, что доля бракованных деталей в партии находится в пределах 10,6% 19,6%.

Пример 4.6

В области, состоящей из 20 районов, проводилось выборочное обследование урожайности на основе отбора серий (районов). Выборочные средние по районам составили соответственно 14,5 ц/га; 16; 15,5; 15 и 14 ц/га. С вероятностью 0,954 найдите пределы урожайности во всей области.

Решение

Рассчитаем общую среднюю:

ц/га.

Межгрупповая (межсерийная) дисперсия

Определим теперь предельную ошибку серийной бесповторной выборки (t = 2, Р дов = 0,954) по формуле (4.13):

.

Следовательно, урожайность в области (с вероятностью 0,954) будет находиться в пределах

15-1,7≤ ≤15+1,7,

13,3 ц/га≤ ≤16,7 ц/га.

В практике проектирования выборочного наблюдения возникает потребность в нахождении численности выборки, которая необходима для обеспечения определенной точности расчета генеральных характеристик – средней и доли. При этом предельная ошибка выборки, вероятность ее появления и вариация признака предварительно известны.

При случайном повторном отборе численность выборки определяется из выражения

При случайном бесповторном и механическом отборе численность выборки вычисляется по формуле

. (4.16)

Для типической выборки

. (4.17)

Для серийной выборки

. (4.18)

Пример 4.7

В районе проживает 2000 семей. Предполагается провести их выборочное обследование методом случайного бесповторного отбора для нахождения среднего размера семьи. Определите необходимую численность выборки при условии, что с вероятностью 0,954 ошибка выборки не превысит одного человека при среднем квадратическом отклонении, составляющем три человека ( =3).

Решение

При бесповторном случайном отборе численность выборки по формуле (4.16) составит семей.

Численность выборки: не менее 36 семей.

Пример 4.8

В городе А проживает 10 000 семей. С помощью механической выборки предполагается определить долю семей с тремя детьми и более. Какова должна быть численность выборки, чтобы с вероятностью 0,954 ошибка выборки не превышала 0,02, если на основе предыдущих обследований известно, что дисперсия равна 0,2?

Решение

Определим необходимую численность выборки по формуле (4.16):

.

Численность выборки: не менее 1667.

В статистике часто приходится сравнивать результаты двух (или более) выборок. На основании сравнения двух выборочных средних (или долей) делается вывод о случайности или существенности их расхождения.

Для этого абсолютная разность показателей выборочных средних сопоставляется со средней ошибкой разности :

. (4.19)

Найденное t расч. сравнивается с t табл. по t – распределению Стьюдента (таблица П2) для числа степеней свободы v =n 1 +n 2 -2 и заданного уровня значимости a. (здесь n 1 и n 2 – объемы сравниваемых выборок).

Эмпирическое корреляционное отношение

Теснота или сила связи между двумя признаками может быть измерена показателем, называемым эмпирическим корреляционным отношением. Этот показатель назван эмпирическим, поскольку он может быть рассчитан на основе обычной группировки по факторному и результативному признаку, то есть на основе корреляционной таблицы. Эмпирическое корреляционное отношение получается из правила сложения дисперсий, согласно которому , где
- общая дисперсия;
- межгрупповая дисперсия;
- внутригрупповая (средняя из частных) дисперсия. Межгрупповая дисперсия является мерой колеблемости, обусловленной факторным признаком. Средняя из частных дисперсий является мерой колеблемости, обусловленной всеми остальными(кроме факторного) признаками. Тогда отношение
выражает долю колеблемости, возникающей за счет факторного признака, в общей колеблемости. Квадратный корень из этого отношения и называется эмпирическим корреляционным отношением:
.

Отсюда следует правило, что чем больше межгрупповая дисперсия, тем сильнее факторный признак влияет на вариации результативного признака. Составляющие отношения дисперсий вычисляются по данным корреляционной таблицы по следующим формулам:

;
,

где - частные средние; - общая средняя; - итоги по признаку ; - итоги по признаку ;
- число наблюдений. То же соотношение сохраняется и для условных значений , полученных числовым преобразованием .

Само отношение дисперсий (подкоренное выражение) называется коэффициентом детерминации (оно равно также квадрату эмпирического корреляционного отношения). Эмпирическое корреляционное отношение изменяется в широких пределах (от 0 до 1). Если оно равно нулю, значит факторный признак на корреляционный не влияет. Если =1, значит, результативный признак полностью зависит от факторного. Если же эмпирическое корреляционное отношение представляет дробь, близкую единице, то говорят о тесной связи между факторным и результативным признаками. Если эта дробь мала (близка нулю), то говорят о слабой связи между ними.

Коэффициент линейной корреляции и индекс корреляции

Мерой тесноты связи между двумя статистически связанными признаками служит коэффициент линейной корреляции или просто коэффициент корреляции. Он имеет тот же смысл, что и эмпирическое корреляционное отношение, но может принимать как положительное, так и отрицательное значение. Коэффициент корреляции имеет строгое математическое выражение для линейной связи. Положительное значение будет указывать на прямую связь между признаками, отрицательное – на обратную.

Парный коэффициент корреляции в случае линейной формы связи вычисляют по формуле

а его выборочное значение – по формуле

При малом числе наблюдений выборочный коэффициент корреляции удобно вычислять по следующей формуле:

Величина коэффициента корреляции изменяется в интервале
.

При
между двумя переменными существует функциональная связь, при
- прямая функциональная связь. Если
, то значение Х и У в выборке некоррелированы; в случае, если система случайных величин
имеет двумерное нормальное распределение, то величины Х и У будут и независимыми.

Если коэффициент корреляции находится в интервале
, то между величинами Х и У существует обратная корреляционная связь. Это находит подтверждение и при визуальном анализе исходной информации. В этом случае отклонение величины У от среднего значения взяты с обратным знаком.

Если каждая пара значений величин Х и У чаще всего одновременно оказывается выше (ниже) соответствующих средних значений, то между величинами существует прямая корреляционная связь и коэффициент корреляции находится в интервале
.

Если же отклонение величины Х от среднего значения одинаково часто вызывают отклонения величины У вниз от среднего значения и при этом отклонения оказываются все время различными, то можно предполагать, что значение коэффициента корреляции стремится к нулю.

Следует отметить, что значение коэффициента корреляции не зависит от единиц измерения и выбора начала отсчета. Это означает, что если переменные Х и У уменьшить (увеличить) в К раз либо на одно и то же число С, то коэффициент корреляции не изменится.

Для упрощения расчетов меры тесноты корреляционной связи часто применяется индекс корреляционной связи, который определяется по следующим формулам:

,
,

где
- остаточная дисперсия, характеризующая вариацию результативного признака под влиянием прочих неучтенных факторов.

Множественная корреляция

Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование. Показатель тесноты связи между результативным и двумя или более факторными признаками называется множественным или совокупным коэффициентом корреляции и обозначается R. Совокупный коэффициент предполагает наличие линейной связи между каждой парой признаков, которая может быть выражена при помощи парных коэффициентов корреляции. Если находится совокупная мера тесноты связи между результативным признаком () и двумя факторными признаками( и ), то расчет совокупного коэффициента корреляции ведется по формуле:

,

Где подстрочные знаки обозначают, между какими признаками изучается парная связь.

В формулах расчетов парных коэффициентов корреляции изменяются лишь символы, обозначающие тот или иной фактор. Так, если коэффициент корреляции между и вычисляется по формуле , то коэффициент корреляции между и вычисляется: ; между и - так:

Расчетная часть

Задание 31

    Имеются следующие данные по десяти предприятиям за отчетный период:

Таблица 2

Предприятия

Среднегодовая стоимость основных производственных фондов, млн. руб.

Выпуск продукции, млн. руб.

Для изучения связи между размером среднегодовой стоимости основных производственных фондов и выпуском продукции вычислите линейное уравнение связи.

2. По приведенным данным: а) вычислите: линейный коэффициент корреляции; б) проверьте правильность выбора формы связи, исчислив индекс корреляции.

    С помощью табличного процессора Microsoft Excel построим рабочую таблицу:

Таблица 3

Расчет сумм для вычисления параметров уравнения прямой

239,74 *1236 = 539,1 распределения вероятностей... экономического анализа , решаемые на основе регрессионных экономических моделей. Рассмотрим у – результативный признак, а х – факторные признаки. Методы корреляционно -регрессионного анализа ...

  • Программа дисциплины «Компьютерные методы анализа социологических данных» (Введение в математическую статистику и анализ данных) Для направления 040200. 68 "Социология"

    Программа дисциплины

    Применения. 11 3 2 6 Дисперсионный анализ 9 2 2 5 Парный и множественный регрессионный анализ 9 2 2 5 Свойства коэффициентов... пользователя SPSS 11.0 Сиськов В.И. Корреляционный анализ в экономических исследованиях . М. 1975. Эддоус М., Стэнсфилд...

  • Г. Л. Савицкая анализ хозяйственной деятельности предприятия

    Документ

    Передового опыта, новейшие методы экономических исследований . Анализ должен быть комплексным. Комплексность исследо... на уровень среднечасовой выработки корреляционно -регрессионный анализ . В многофакторную корреляционную модель среднечасовой выра­ботки...

  • ОТВЕТ

    Количественная оценка тесноты связи по эмпирическим данным состоит в расчете показателей тесноты связи:

    · Эмпирический коэффициент детерминации (эмпирическое дисперсионное отношение) - r 2 .

    Данный показатель рассчитывается по данным аналитической группировки (табл.), как отношение межгрупповой дисперсии признака-результата Y (d y 2) к общей дисперсии Y (s y 2):

    Согласно теореме о разложении дисперсии межгрупповая дисперсия связана с общей дисперсией: s y 2 =d y 2 +e y 2 . Тогда эмпирический коэффициент детерминации может быть рассчитан через остаточную дисперсию по формуле:

    где s j 2 – дисперсия признака-результата Y внутри j-ой группы.

    Эмпирический коэффициент детерминации характеризует силу влияния группировочного признака (Х) на образование общей вариации результативного признака Y и показывает процент (долю) вариации признака-результата, обусловленную признаком-фактором, положенным в основу группировки.

    Расчет r 2 удобно вести в таблице:

    Признак- фактор Х j N j Среднее значение признака-результата s j 2 N j
    X 1 N 1 s 1 2 N 1
    X 2 N 2 s 2 2 N 2
    .... ...
    X m N m s m 2 N m
    Итого N Х ås j 2

    Тогда .

    Рассмотрим пример. Пусть дана совокупность из 20 рабочих, характеризующихся признаками: Y - выработка рабочего (шт./смену) и Х- квалификация (разряд). Исходные данные представлены в таблице:

    X
    Y

    Требуется оценить тесноту связи между признаками с помощью эмпирического коэффициента детерминации (r 2).

    Для расчета r 2 произведем аналитическую группировку совокупности. В качестве признака-фактора возьмем Х (разряд рабочего), в качестве признака-результата – Y выработку рабочего). Аналитическая группировка производится по признаку Х. В данном случае она будет дискретная (т.к. значения признака Х довольно часто повторяются). Количество групп равно числу значений признака Х в совокупности, т.е. 6. Результаты группировки и расчета r 2 сведем в таблицу:

    Признак-фактор Х Признак-результат Y Количество единиц в группе, N j Среднее значение признака-результата в группе, ( - ) 2 ·N j Дисперсия признака-результата в группе, s 2 j s 2 j ·N j
    (10+12+13)/3=11,7 (11,7-17,1) 2 3=88,56 s 2 1 =((10-11,7) 2 +(12-11,7) 2 +(13-11,7) 2)/3=1,56 4,7
    (11+14)/2=12,5 (12,5-17,1) 2 2=42,3 s 2 2 =((11-12,5) 2 +(14-12,5) 2)/2=2,25 4,5
    (12+13+15+16)/4= 14 (14-17,1) 2 4=38,4 s 2 3 =((12-14) 2 +(13-14) 2 +(15-14) 2 +(16-14) 2)/4=2,5
    (15+17+17+18)/4= 16,75 (16,75-17,1) 2 4=0,49 s 2 4 =((15-16,75) 2 +(17-16,75) 2 ++(17-16,75) 2 +(18-16,75) 2)/4=1,9 4,75
    (18+20+22)/3=20 (20-17,1) 2 3=25,23 s 2 5 =((18-20) 2 +(20-20) 2 +(22-20) 2)/3=2,7
    (23+24+27+25)/4= 24,75 (24,75-17,1) 2 4=234,1 s 2 6 =((23-24,75) 2 +(24-24,75) 2 +(27-24,75) 2 +(25-24,75) 2)/4=2,19 8,75
    =17,1 429,1 40,7

    Эмпирический коэффициент детерминации равен отношению межгрупповой дисперсии признака-результата (d y 2) к общей дисперсии признака-результата (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).

    Межгрупповая дисперсия Y будет равна: d y 2 = å( - ) 2 ·N j / N = 429,1/20=21,45.

    Остаточная дисперсия Y будет равна: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.

    Тогда: r 2 =21,45/(21,45+2,035)= 429,1/(429,1+40,7)=0,913.

    Вывод: 91,3% вариации выработки рабочих обусловлена влиянием фактора разряд.

    · Эмпирическое корреляционное отношение - r.

    Данный показатель представляет собой корень из эмпирического коэффициента детерминации. Оно показывает тесноту связи (не только линейной!) между группировочным и результативным признаками. Область допустимых значений эмпирического корреляционного отношения от 0 до +1.

    Максимально тесная связь – это связь функциональная, когда каждое значение признака-результата Y однозначно определяется значением признака-фактора Х (т.е. результатом группировки). В этом случае дисперсия групповых средних (d y 2) равна общей дисперсии (s y 2), т.е. внутригрупповой вариации не будет. При этом остаточная дисперсия (e y 2) равна 0, а эмпирический коэффициент детерминации равен 1.

    Если связь между признаками отсутствует, то все групповые средние равны между собой, межгрупповой вариации не будет (d y 2 =0), а эмпирический коэффициент детерминации равен 0.

    Рассчитаем эмпирическое корреляционное отношение для нашего примера: r= 0,9555. Вывод: признаки «выработка рабочего» и «разряд» связаны довольно тесной связью.

    Показатели r и r 2 определяются не только наличием связи признаков Х и Y, но и фактом группировки первичных данных. С ростом числа групп m межгрупповая дисперсия d 2 растет и приближается к общей дисперсии. Если число групп меньше количества единиц совокупности N, то значения r и r 2 никогда не будут равны 1, даже при строгой функциональной связи.

    Заметим, что сама по себе величина показателя тесноты связи не является доказательством наличия причинно-следственной связи между исследуемыми признаками, а является оценкой степени взаимной согласованности в изменениях признаков. Установлению причинно-следственной зависимости должен обязательно предшествовать анализ качественной природы явлений.

    Для измерения тесноты связи применяется несколько показателœей. При парной связи теснота связи определяется, прежде всœего, корреляционным отношением, ĸᴏᴛᴏᴩᴏᴇ обозначается η. Квадрат корреляционного отношения - ϶ᴛᴏ отношение межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного факторного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всœех причин и условий. Квадрат корреляционного отношения принято называть коэффициентом детерминации.

    ыми явлениями и их признаками: ­­­­­­­­­­­­­________________ или жестко детермини

    где k- число групп

    N – число наблюдений

    y i – исходные значения результативного признака

    y j – средние значения результативного признака для данной группы

    y – среднее значение признака

    f j – численность группы

    Указанная выше формула применяется при расчете показателя тесноты связи по аналитической группировке. При вычислении корреляционного отношения по уровню связи применяется формула:

    Сумма квадратов в числителœе ­- ϶ᴛᴏ объясненная связью с фактором х (факторами) дисперсия результативного признака у. Она вычисляется по индивидуальным данным, полученным для каждой единицы совокупности на базе уравнения регрессии.

    В случае если уравнение выбрано неверно или сделана ошибка при расчете его параметров, то сумма квадратов в числителœе может оказаться больше чем в знаменателœе, и отношение утратит тот смысл, который должно иметь. Чтобы избежать ошибочного результата͵ лучше вычислять корреляционное отношение по следующей формуле:

    В корне указанной формулы лежит известное правило разложения сумм квадратов отклонений при группировке совокупности:

    D общ = D межгр +D внутригр

    Согласно этому правилу можно вместо межгрупповой (факторной) дисперсии использовать разность:

    D общ –D внутригр

    что дает:

    При расчете η не по группировке, а по уравнению корреляционной связи (уравнению регрессии) мы используем формулу. В этом случае правило разложения суммы квадратов отклонений результативного признака записывается как

    D общ = D кор +D ост

    Важнейшее положение, ĸᴏᴛᴏᴩᴏᴇ следует теперь усвоить любому, желающему правильно применять метод корреляционно-регрессионого анализа, состоит в интерпретации формул (1.2) и (1.3). Это положение гласит:

    Уравнение корреляционной связи измеряет зависимость между вариацией результативного признака и вариацией факторного признака (признаков). Меры тесноты связи измеряют долю вариации результативного признака, которая связанна с вариацией факторного признака (признаков).

    Эмпирическое корреляционное отношение - понятие и виды. Классификация и особенности категории "Эмпирическое корреляционное отношение" 2017, 2018.



    Рассказать друзьям