ЛЕКЦИЯ 4

  1. Определение значимости коэффициента корреляции.
  2. Пример определения значимости коэффициента корреляции.
  3. Интервальная оценка функции регрессии.
  4. Доверительный интервал для индивидуальных значений зависимой переменной.
  5. Оценка значимости уравнения регрессии.
  6. Определение значимости параметров линейной регрессии.
  7. Доверительный интервал для параметров регрессионной модели.
  8. Статистические расчеты в пакете MAPLE.
  9. Вопросы для самопроверки.

Значимость коэффициента корреляции

   Если получено уравнение регрессии, то далее вычисления необходимо дополнить показателем тесноты связи, в качестве его выступает коэффициент корреляции r:
.
Близость r к нулю означает отсутствие линейной связи между признаками.
   В ряде прикладных задач требуется оценить значимость коэффициента корреляции r. При отсутствии корреляционной связи статистика
имеет t - распределение Стьюдента с n - 2 степенями свободы. Поэтому коэффициент корреляции r значим на уровне α, если выполнено неравенство
,
где tα n - 2 — табличное значение tкритерия Стьюдента, определенное на уровне α при числе степеней свободы n – 2.

Пример

   В примере, который мы рассматриваем
.
Так как значение коэффициента корреляции близко к нулю, то связь между величинами х и у получается недостаточно тесной.
   Проверим значимость коэффициента корреляции на уровне α = 0,05. Расчетное значение равно
.
   По таблицам t – распределения находим t 0,05;10 = 2,23. Так как t < t 0,05;10, то коэффициент корреляции не значим.

Интервальная оценка функции регрессии

   Построим доверительный интервал для функции регрессии, то есть интервал для условного математического ожидания Мх(Y), который с заданной надёжностью (доверительной вероятностью) γ = 1 - α накрывает неизвестное значение Мх(Y). С этой целью уравнение регрессии представим в виде:
   На рисунке эта линия регрессии изображена графически (смотри рисунок.) .
Для произвольного наблюдаемого значения yi выделены его составляющие: средняя , приращение , образующие расчетное значение ŷi, и остаток ei.
   Из уравнения регрессии  используя свойства дисперсии найдём дисперсию групповой средней:
.
   Дисперсия выборочной средней
.
   Для нахождения дисперсии углового коэффициента b прямой регрессии представим коэффициент регрессии в виде
.
Тогда по свойству дисперсии получим дисперсию углового коэффициента
.
Таким образом
.
Заменяя σ ² её несмещённой оценкой s2, получим
.
Несмещённая оценка дисперсии находится соотношением
.
   В соответствии с предпосылками 5 - 7 регрессионного анализа, статистика
имеет распределение Стьюдента с k = n – 2 степенями свободы. Так как − tα,kttα,k, то получим доверительный интервал для условного математического ожидания:
,
или
.
Найдём табличное значение t – статистики t0,05;10 = 2,23. Поэтому
Как видно (смотри рисунок.) , ширина доверительного интервала зависит от значения объясняющей переменной х: при х =  = 23,38 эта ширина минимальна, и по мере удаления х от  ширина доверительного интервала увеличивается. Прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение х объясняющей переменной Х не выходит за диапазон её значений по выборке. Использование вне пределов указанного диапазона значений объясняющей переменной может привести к значительным погрешностям. При х =  = 23,38 доверительным интервалом является [21,5; 23,7].
   То есть математическое ожидание стоимости обслуживания вагона с пробегом 23,38 тыс.км с надёжностью 0,95 находится в пределах [21,5; 23,7] тыс. рублей.

Доверительный интервал для индивидуальных значений зависимой переменной

   Построенная доверительная область для Mx(Y) (смотри рисунок.) определяет местоположение модельной линии регрессии (т.е. условного математического ожидания), но не отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений у0* зависимой переменной необходимо учесть рассеяние вокруг линии регрессии. В результате оценка дисперсии индивидуальных значений у0* при х = х0 равна
,
а соответствующий доверительный интервал для прогнозов индивидуальных значений у0*  будет определяться по формуле
.
(смотри рисунок.)
Ширина этого интервала для каждого конкретного значения объясняющей переменной указана пунктирными линиями.
   Доверительным интервалом для индивидуального значения у0* при х =  = 23,38 является [13,23351380, 31,88315286].
   С надёжностью 0,95 стоимость стоимость бслуживания вагона с пробегом 23,38 тыс.км находится в пределах [13,23, 31,88] тыс. рублей.

Оценка значимости уравнения регрессии

   Проверить значимости уравнения регрессии это значит установить степень соответствия математической модели, принятой для описания зависимости между переменными, экспериментальными данными и числом параметров, принятых для описания зависимости.
   Схема имеет вид таблицы
Компоненты дисперсииСумма квадратовЧисло степеней свободыСредние квадраты
Регрессия m - 1
Остаточная n - m
Общая n - 1 
   Здесь m — число оцениваемых параметров; n — число наблюдений.
   При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины и имеют χ2-распределение соответственно с m − 1 и n - m степенями свободы, а их отношение F – распределение с теми же степенями свободы. Поэтому уравнение регрессии значимо на уровне α, если фактически наблюдаемое значение статистики
,
где  — табличное значение F – распределения Фишера – Снедекора, определяемое на уровне α при k 1 = m – 1 и k 2 = n – m степенями свободы. Значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с её средней. В случае линейной парной регрессии m = 2, и F – статистика в этом случае имеет вид
уравнение регрессии значимо на уровне α, если выполнено неравенство
.
   Для рассматриваемой задачи далее имеем    По формуле находим расчётное значение статистика
.
По таблице F – распределения F0,05; 1; 10 = 4,96. Так как F < F0,05; 1; 10, то уравнение регрессии не значимо.

Определение значимости параметров линейной регрессии

   Определим среднее квадратическое отклонение остаточной дисперсии
.
Далее вычислим фактические значения t – критерия:
,   .
Критическое значение по таблице Стьюдента с учётом принятого уровня α = 0,05 и числом степеней свободы k = 12 – 2 = 10 равно t0,05;10 = 2,228. Полученные в анализе корреляционные связи параметры уравнения регрессии признаются типичными, если t фактическое больше t критического:
t a > t k < t b.
   Для данного примера условие t a > t k выполнено и параметр а уравнения регрессии значим, условие t k < t b не выполнено и параметр b уравнения регрессии незначим.

Доверительный интервал для параметров регрессионной модели

   Наряду с интервальным оцениванием функции регрессии иногда представляет интерес построение доверительных интервалов для параметров регрессионной модели, в частности для β и σ2.
   При выполнении предпосылки 5 регрессионного анализа статистика имеет стандартный нормальный закон распределения.
   Если в выражении
заменить σ² на s2, то есть
,
то статистика
имеет распределение Стьюдента с k = n – 2 степенями свободы. Поэтому интервальная оценка параметра β на уровне значимости α имеет вид
.
Так для рассматриваемого примера этот интервал находится по формуле
,
или 0,29 ≤ β ≤ 0,37, то есть с надёжностью 0,95 при изменении длины пробега вагона на 1 тыс.км. стоимость обслуживания вагона будет изменяться на величину, заключённую в интервале от 0,29 до 0,37 тыс. рублей.
   Учитывая, что α = 0,05, найдём по таблице распределений Пирсона
; .
По формуле
получим
,
или 11,049 ≤ σ² ≤ 88,845, и 3,324 ≤ σ ≤ 9,4258. Таким образом, с надёжностью 0,95 дисперсия возмущений заключена в пределах от 11,049 до 88,845, а их стандартное отклонение от 3,324 до 9,4258 тысяч рублей.

Статистические расчеты в пакете MAPLE

>covxy:= describe[covariance](X, Y); — нахождение ковариации двух случайных величин.
>fit[leastsquare[[x, y]]]([X,Y]); — непосредственное нахождение уравнения линейной регрессии.
>fit[leastsquare[[x,y],y =a*x^2+b*x+c]]([X,Y ]); — непосредственное нахождение квадратичной линейной регрессии.
>rxy:=b*sigmaX/sigmaY;# коэффициент корреляции
где
>sigmaX:=describe[standarddeviation](X);
sigmaY:=describe[standarddeviation](Y);#средние квадратические отклонения

Вопросы для самопроверки

  1. Как найти коэффициент корреляции?
  2. Как проверить значимость коэффициента корреляции?
  3. Какой вид имеет условие статистической значимости уравнения регрессии для функции Фишера?
  4. Какой вид имеет условие статистической значимости параметров уравнения регрессии для функции Стьюдента?
  5. Какой вид имеет доверительный интервал для условного математического ожидания?
  6. Как проверить значимость уравнения регрессии?
  7. Чем отличается доверительный интервал для условного математического ожидания от доверительного интервала для индивидуального значения?