Эмпирическое корреляционное отношение определяет. Коэффициент корреляции и коэффициент детерминации

💖 Нравится? Поделись с друзьями ссылкой

Корреляционный анализ предполагает измерение тесноты связи с помощью коэффициента корреляции и корреляционного отношения. При линейной форме зависимости силу связи оценивает коэффициент корреляции Пирсона :

Коэффициент корреляции изменяется в пределах от (– 1) до (+ 1), (– 1 r 1).

Отрицательный знак показателя свидетельствует об обратной связи, положительный – о прямой связи. Чем ближе значение показателя к единице, по модулю, тем связь сильнее, чем ближе к нулю, тем связь слабее.

Для измерения силы связи при любой форме зависимости, как линейной, так и нелинейной, а также для оценки множественной связи применяют теоретическое корреляционное отношение (индекс корреляции). В основе его расчета лежит правило сложения дисперсии:

где общая дисперсия – отражает вариацию результативного признака за счет всех действующих на него факторов;

или

факторная дисперсия , отражает вариацию результативного признака за счет фактора (х) .

остаточная дисперсия , отражает вариацию результативного признака за счет всех факторов, кроме фактора (х) ;

Теоретическое корреляционное отношение – это корень квадратный из отношения факторной дисперсии к общей дисперсии:

Подкоренное выражение – коэффициент детерминации :

показывает долю вариации результативного признака, обусловленную влиянием факторного признака, в общей вариации. Чем эта доля выше, тем связь между признаками сильнее.

Теоретическое корреляционное отношение изменяется от 0 до 1 (0 R 1) .Чем значение показателя ближе к единице, тем связь сильнее.

Для оценки тесноты связи можно воспользоваться шкалой Чеддока :

Основная тенденция развития и методы ее выявления

Каждый ряд динамики имеет свою тенденцию развития, т.е. общее направление к росту, снижению или стабилизации уровня явления с течением времени. Степень выраженности этой тенденции зависит от влияния постоянных, периодических (сезонных) и случайных факторов на уровни ряда динамики. Поэтому следует говорить не просто о тенденции развития, а об основной тенденции.

Основной тенденцией развития (трендом) называется плавное и устойчивое изменение уровня явления во времени, свободное от периодических и случайных колебаний .

Для выявления тренда ряды динамики подвергаются обработке методами укрупнения интервалов, скользящей средней, аналитического выравнивания.

Метод укрупнения интервалов основан на укрупнении периодов времени, к которым относятся уровни ряда динамики. Для этого исходные данные объединяются, т.е. суммируются или усредняются за более продолжительные интервалы времени, пока общая тенденция развития не станет достаточно отчетливой. Например, дневные данные о производстве продукции объединяются в декадные, месячные в квартальные, годовые в многолетние. Достоинство метода в его простоте. Недостаток в том, что сглаженный ряд существенно короче исходного.

Метод скользящей средней состоит в том, что на основе исходных данных рассчитываются подвижные средние из определенного числа сначала первых по счету уровней ряда, затем из такого же числа уровней, начиная со второго, с третьего и т.д. Средняя величина как бы скользит по динамическому ряду, передвигаясь на один интервал. В скользящих средних сглаживаются случайные колебания.

Схема расчета 3-х уровневой скользящей средней величины

Интервал времени

(номер по порядку)

Фактические уровни ряда динамики

у i

Скользящие средние

у ск

у 1

у 2

у 3

у 4

у ск3

у 5

у ск4

у 6

Сглаженный ряд динамики короче исходного на величину (l – 1) , если укрупнение производится по нечетному числу уровней, где l – длина периода укрупнения. Например, если l = 3, то выровненный ряд на 2 уровня короче. Таким образом сглаженный ряд не на много короче исходного.

Метод аналитического выравнивания заключается в замене фактических уровней ряда динамики их теоретическими значениями, вычисленными на основе уравнения тренда:

Расчет параметров уравнения производится методом наименьших квадратов:

где у – фактические уровни;у ti – соответствующие им во времени выровненные (расчетные) уровни.

Если развитие осуществляется в арифметической прогрессии (с равными цепными абсолютными приростами), то для выравнивания используют линейную функцию :

Если наблюдается динамика в геометрической прогрессии, (с равными цепными темпами роста), то необходимо использовать показательную функцию :

у t = а 0 а 1 t .

Если развитие происходит с равными темпами прироста, используется степенная функция , например второго порядка (парабола):

у t = а 0 + а 1 t + а 2 t 2 .

Критерием правильности выбора уравнения тренда служит ошибка аппроксимации . Она представляет собой среднее квадратическое отклонение фактических уровней ряда динамики от теоретических:

Оптимальным считается уравнение с наименьшей ошибкой аппроксимации.

Рассмотрим «технику» выравнивания ряда динамики по линейной функции :


где а 0 , а 1 – параметры уравнения прямой; t – показатели времени (как правило, порядковый номер периода или момента времени).

Параметры прямой а 0 и а 1 , удовлетворяющие методу наименьших квадратов, находят решением следующей системы нормальных уравнений:

где n – число уровней ряда динамики; параметр а 1 соответствует среднему абсолютному приросту.

Для упрощения расчета показателям времени
можно придать такие значения, при которых
, тогда

Для этого в рядах с нечетным числом уровней за начало отсчета времени принимают центральный интервал, где t приравнивают к нулю. По обе стороны от нуля располагают соответственно ряды отрицательных и положительных натуральных чисел, например:

Интервал времени

(номер по порядку)

t i

При четном числе уровней отсчет ведется от двух центральных интервалов, в которых t приравнено к (-1) и (+1) соответственно, а по обе стороны располагаются ряды отрицательных и положительных нечетных чисел, например:

Интервал времени

(номер по порядку)

t i

Схема расчета параметров линейного уравнения

Интервалы времени

Уровни ряда динамики

у i

t i

i t 2

у i t i

у ti

На основе исчисленного уравнения тренда можно производить экстраполяцию – нахождение вероятностных (прогнозируемых) уровней за пределами исходного ряда динамики.

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Эмпирическое корреляционное среднее варьирует от 0 до 1.

Находят эмпирическое корреляционное отношение обычно в следующих типах задач:

  • 1) когда по двум рядам данным X и Y необходимо произвести аналитическую группировку
  • 2) группировка уже произведена, необходимо проверить правило сложения дисперсий
  • 3) по двум рядам данным X и Y необходимо найти уравнение регрессии и оценить его значимость

Формула дисперсии альтернативного признака

Исходя из изложенного выше, можно вывести формулу нахождения дисперсии альтернативного признака, если нам известна процентная доля такого признака в общем объеме выборки.

Изначально мы предполагаем, что признак принимает только два значения.

Таким образом, сумма доли элементов, в которых элементы статистического ряда имеют значение признака "нет" и элементов ряда, которые имеют значение признака "да" - равно единице.

Для нахождения среднего значения ряда, подставим значения альтернативных признаков (0 и 1) в формулу нахождения среднего взвешенного значения статистического ряда. Откуда, совершенно очевидно, в знаменателе будет единица, а в числителе - процентное значение элементов "1". То есть ровно процентное значение элементов с признаком "1". (Формула 2)

Формула дисперсии - это средневзвешенное значение квадратов отклонений каждого значения ряда данных. (Формула 3)

Поскольку в нашем ряду данные имеют только два типа значений - "0" и "1", то формула нахождения дисперсии для ряда, имеющего альтернативный признак сводится к Формуле 4. Пояснение. поскольку мы только что вывели, что среднее значение выборки равно р (Формула 2), то значение квадрата разности значения (0/1) и среднего значения, согласно Формулы 1, будет в первом случае (1-p)2 , а во втором случае (1-q)2 , теперь, применив следствие из первой формулы: q = 1 - p, p = 1- q . Получим p2 и q2 . Соответственно, доля значений "0" и "1" равна p и q, в результате в числителе и получается q2 p и p2 q. Сумма долей признаков значений "0" и "1" согласно Формуле 1 равна 1. В итоге Формула 4 и принимает значение pq, которое и будет равно значению дисперсии альтернативного признака. Исходя из найденного значения величины дисперсии альтернативного признака, найдем среднеквадратичное отклонение (Формула 5). Поставив значение из Формулы 1 в Формулу 5, получим формулу среднеквадратичного отклонения для дисперсии ряда с альтернативным признаком.

Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.

Формула расчета:

R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},

  • \bar{y} – ср. арифметическое зависимой переменной;
  • fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
  • yi – значение исследуемой зависимой переменной.

Детерминация, что это такое — определение

Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.

Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.

Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.

Коэффициент детерминации, что показывает?

Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.

Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.

Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.

Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.

С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.

Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.

Индекс детерминации

Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.

Формула



Коэффициент детерминации скорректированный

Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).

Величина 0,86 характеризует существенную связь между группировочным и результативным признаками.

Величина называется коэффициентом детерминации и показывает долю межгрупповой дисперсии в общей дисперсии.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается, как и для долей количественных признаков, посредством вычисления и анализа следующих видов дисперсий.

Внутригрупповая дисперсия доли определяется по формуле

. (3.17)

Средняя из внутригрупповых дисперсий рассчитывается как

. (3.18)

Формула межгрупповой дисперсии имеет следующий вид:

, (3.19)

где n i – численность единиц в отдельных группах;

–доля изучаемого признака во всей совокупности, которая определяется по формуле

. (3.20)

Общая дисперсия имеет вид

. (3.21)

Три вида дисперсии связаны между собой следующим образом:

. (3.22)

Пример 3.4

Определим групповые дисперсии, среднюю из групповых, межгрупповую и общую дисперсии по данным табл. 3.3.

Таблица 3.3

Численность и удельный вес одной из категорий крупного рогатого скота фермерских хозяйств района

Решение

Определим долю дойных коров в целом по трем хозяйствам:

;

Общая дисперсия доли дойных коров:

Внутригрупповые дисперсии:

; ;
.

Средняя из внутригрупповых дисперсий:

Межгрупповая дисперсия:

Используя правило сложения дисперсий, получаем: 0,1025+0,0031=0,1056. Пример решен правильно.

Пример 3.5

По данным выборочного обследования заработной платы работников бюджетной сферы получены следующие показатели (табл. 3.4).

Таблица 3.4

Определите:

    среднюю заработную плату по двум отраслям;

    дисперсии заработной платы:

а) среднюю из групповых дисперсий (отраслевых),

б) межгрупповую (межотраслевую),

    коэффициент детерминации;

    эмпирическое корреляционное отношение.

Решение

    Средняя заработная плата работников по двум отраслям рассчитывается по формуле (2.10):

руб.

    Дисперсии заработной платы:

а) средняя из групповых дисперсий по (3.14)

б) межгрупповая дисперсия согласно (3.12)

.

в) общая дисперсия, полученная на основании правила сложения дисперсий (3.15):

    Коэффициент детерминации равен величине

; (3.23)

т.е.
, или 44,24%.

Он показывает, что оплата труда на 44,24% зависит от отраслевой принадлежности работников и на 55,76% – от внутриотраслевых причин.

По формуле (3.16) эмпирическое корреляционное отношение
,

что свидетельствует о существенном влиянии на дифференциацию заработной платы отраслевых особенностей.



Рассказать друзьям