Парный регрессионный анализ

   В таблице 1 приведены данные по обслуживанию вагонного парка (у — стоимость обслуживания вагона (тыс. руб.), х — длина пробега вагона, (тыс. км.).
  1. Рассчитайте параметры уравнений регрессии у = а + b·x
  2. Оцените тесноту связи с помощью коэффициента корреляции.
  3. Рассчитайте среднюю погрешность аппроксимации и оцените качество модели.
  4. С помощью F – критерия Фишера (на уровне α = 0,05) оцените значимость уравнения регрессии.
  5. С помощью критерия Стьюдента оцените значимость параметров уравнения регрессии.
  6. Определите значимость коэффициента корреляции и оцените связь между факторами.
  7. Оцените качество модели с помощью коэффициента детерминации.
  8. Рассчитайте средний коэффициент эластичности и дайте сравнительную оценку силы связи факторов с результатом.
  9. Рассчитайте прогнозную стоимость ŷпр обслуживания вагона, если длина пробега вагона увеличится на 5% от его среднего значения.
  10. Найдите доверительный интервал изменения стоимости обслуживания вагона со средним по выборке пробегом на уровне α = 0,05.
  11. Найдите доверительный интервал стандартного отклонения стоимости обслуживания вагона при увеличении пробега вагона на 1 тыс. км. на уровне α = 0,05.
  12. Найдите доверительный интервал стандартного отклонения стоимости обслуживания вагона на уровне α = 0,05.
  13. Парный регрессионный анализ в пакете MAPLE.
  14. Расчёты должны быть подробны и сопровождены пояснительной записью.
Таблица 1
1х10,550,10,350,81,251,72,152,63,05
у4,33,562,143,313,684,84,75,15,26,2
2х0,010,561,111,662,212,283,33,854,44,95
у0,61,41,281,541,552,092,22,443,22,8
3х21,61,21,82,42,63,43,84,24,6
у2,31,241,762,82,5323,22,64,765,24
4х0,31,572,844,115,386,657,929,1910,4611,73
у1,331,552,32,72,742,63,53,33,43,7
5х0,51,651,81,952,12,752,93,453,84,15
у0,10,30,450,30,390,50,690,580,750,83
6х0,150,941,722,513,294,084,865,656,437,22
у1,692,22,373,253,434,214,745,35,586,93
7х0,350,821,281,752,212,6753,143,6054,074,535
у3,63,74,24,354,454,374,354,414,524,68
8х11,82,63,45,26,06,26,47,67,8
у4,144,24,34,825,415,85,836,857,326,95
9х22,32,62,93,23,53,84,14,44,7
у2,673,063,164,134,925,296,296,977,397,6
10х12345678910
у0,10,20,50,610,710,780,820,891,21,5

Дополнительное задание только для студентов очной формы обучения

11х0,951,211,471,742,02,262,522,783,053,31
у3,163,394,194,344,885,616,547,338,289,19
12х0,350,821,281,752,212,683,143,614,074,53
у6,997,838,619,569,9610,6210,2911,0911,9312,8
13х0,71,432,162,893,624,355,085,196,466,73
у2,964,465,175,926,456,987,358,318,69,77
14х23,53,594,55,66,57,48,58,79,5
у0,30,520,480,440,770,981,21,531,451,75
15х23,43,84,24,45,05,66,26,87,4
у3,63,74,24,354,454,374,384,414,524,68

ПРИМЕР ВЫПОЛНЕНИЯ ЗАДАНИЯ

   Имеются данные о стоимости ремонта вагона у — стоимость обслуживания вагона (тыс. руб.), х — пробег вагона (тыс. км.).
х22,827,534,526,419,817,925,220,120,721,419,824,5
у23,026,828,023,422,520,822,421,818,523,518,720,4

   РЕШЕНИЕ. Регрессионную зависимость будем искать в виде у = а + b·x. Значения  отличаются от значений уi на некоторые величины ei, которые назовём погрешностями. В этом случае уi = а + b·xi + ei.
   Система, из которой найдём параметры уравнения регрессии, имеет вид
                        (1)
где
Решением системы (1) будет
Для того, чтобы найти параметры линии вычислим все необходимые суммы, используя данные задачи (см. табл. 1):



По формулам находим выборочные характеристики и параметры уравнений регрессии:
, , , , .
Итак,уравнение регрессии Y по Х имеет вид у = 11,13 + 0,4855·х.
Множество точек с координатами (xi, yi) — облако рассеяния, прямая линия — линия регрессии.
   Уравнение регрессии необходимо дополнить показателем тесноты связи, в качестве его выступает коэффициент корреляции rxy:
.
В данном примере
.
Значимость линейного коэффициента корреляции определим ниже. Можно воспользоваться упрощённым правилом: если | r | < 0,3, то связь практически отсутствует; если 0,3 < | r | < 0,5, то связь слабая; если 0,5 < | r | < 0,7, то связь достаточно сильная; если | r | > 0,7, то имеется высокая степень зависимости между признаками. Так как значение коэффициента корреляции 0,78, то связь между величинами х (пробегом вагона) и у (стоимостью его обслуживания) будем считать достаточно тесной.
   Средняя погрешность аппроксимации находится по формуле
.
и составляет 6,88% (см. таблицу вычислений).
Таблица расчёта значений параметров линейной регрессии
Nxx²yx·yy²((ŷy -(y - ŷA%
122,8519,8423524,45290,517-0,5830,2670,34022,2000,8000,6400,035
227,5756,2526,8737718,244,3174,11718,63416,94724,4822,3185,3730,086
334,51190,25289667845,51711,11730,434123,58027,8810,1190,0140,004
426,4696,9623,4617,76547,560,9173,0170,8409,10023,948-0,5480,3000,023
519,8392,0422,5445,5506,250,017-3,5830,00012,84020,7441,7563,0850,078
617,9320,4120,8372,32432,64-1,683-5,4832,83430,06719,8210,9790,9580,047
725,2635,0422,4564,48501,76-0,0831,8170,0073,30023,365-0,9650,9320,043
820,1404,0121,8438,18475,24-0,683-3,2830,46710,78020,8890,9110,8300,042
920,7428,4918,5382,95342,25-3,983-2,68315,8677,20021,181-2,6817,1850,145
1021,4457,9623,5502,9552,251,017-1,9831,0343,93421,5201,9803,9190,084
1119,8392,0418,7370,26349,69-3,783-3,58314,31412,84020,744-2,0444,1760,109
1224,5600,2520,4499,8416,16-2,0831,1174,3401,24723,025-2,6256,8930,129
Сумма280,66793,54269,86421,556155,040,000Q = 89,037232,177 Qe = 34,3050,826
среднее
значение
23,383566,12822,483535,129512,920  7,42019,348  2,859 6,884
Дисп19,348       2,724 4,399  s = 1,852174доп
b 0,486             
a 11,130      F = 15,95     
эластичность0,504956            
ковариация9,393889     QR = 54,731      
сигма4,398642            
В случае линейной парной регрессии уравнение регрессии значимо на уровне α, если
,
где Для данной задачи имеем
.
По таблице F – распределения найдём F0,05; 1; 10 = 4,96. Так как F > F0,05; 1; 10, то уравнение регрессии значимо для данного уровня значимости.
   Определим среднее квадратическое отклонение остаточной дисперсии
.
Далее вычислим фактические значения t – критерия:
,
Критическое значение по таблице Стьюдента с учётом принятого уровня α = 0,05 и числом степеней свободы k = 12 – 2 = 10 равно tα; k = 2,228. Полученные в анализе корреляционные связи параметры уравнения регрессии признаются типичными, если t фактическое больше t критического:
t a > t k < t b.
В данном случае это условие выполнено. Следовательно, вычисленные по уравнению регрессии параметры модели признаются значимыми.
   Коэффициент корреляции значим на уровне α (гипотеза о равенстве нулю коэффициента корреляции нулю отвергается), если справедливо неравенство
,
где t α, n - 2 — табличное значение распределения Стьюдента, определённое на уровне значимости α при числе степеней свободы n – 2.
.
Коэффициент корреляции с надёжностью 0,05 значим, связь между стоимостью обслуживания вагона и его пробегом существенна.
   Характеристикой прогностической силы регрессионной модели, мерой качества подгонки регрессионной модели к наблюдаемым значениям yi, является коэффициент детерминации
,
Чем ближе R 2 к единице, тем лучше регрессия аппроксимирует эмпирические данные. Используя вышеприведённые вычисления, получим
,
и 61% изменения стоимости обслуживания вагона обусловлено пробегом вагона.
   В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции R 2 = r2xy.
   Для анализа построенной и оценённой модели используется средний показатель эластичности
.
В данном примере он равен
.
Эта величина показывает, что при увеличении пробега вагона на 1% стоимость обслуживания вагона увеличивается на 0,5%.
   Рассчитаем прогнозное значение ŷпр, если прогнозное значение фактора увеличится на 5% от его среднего значения:
Δy пр = b·0,05 = 0,486·0,05 = 0,024276.
Если прогнозное значение фактора увеличится на 5% от его среднего значения, то прогнозное значение ŷпр увеличится на 0,024 тыс.руб./тыс.км.
   Несмещённая оценка дисперсии находится по формуле
.
Оценка среднеквадратического отклонения групповых средних определится из соотношения
.
Случайная величина
имеет распределение Стьюдента с k = n – 2 степенями свободы и поэтому имеет место доверительный интервал для условного математического ожидания:
,
где t 0,05; 10 = 2,23. Или
.
Учитывая вышеприведённые вычисления, получим
.
При х =  = 23,38 доверительным интервалом является [21,29; 23,68]. То есть стоимость обслуживания вагона со средним пробегом 23,38 тыс. км с надёжностью 0,95 находится в пределах [21,29; 23,68] тыс. рублей.
   Интервальная оценка углового коэффициента линии регрессии на уровне значимости α имеет вид
.
Так для рассматриваемого примера этот интервал находится по формуле
,
или 0,215 ≤ β ≤ 0,757, то есть с надёжностью 0,95 при пробега вагона на 1 тыс. км. стоимость обслуживания вагона будет изменяться на величину, заключённую в интервале от 0,215 до 0,757 тыс. рублей.
   Учитывая, что α = 0,05, найдём по таблице распределений Пирсона
; .
По формуле
получим
,
или 2,01 ≤ σ ² ≤ 12,678, и 1,42 ≤ σ ≤ 3,56. Таким образом, с надёжностью 0,95 стандартное отклонение стоимости обслуживания вагона находится в интервале от 1,42 до 3,56 тысяч рублей.

Парный регрессионный анализ в пакете MAPLE

>restart: with(stats):with(plots):
>n:=12:X:=[22.8,27.5,34.5,26.4,19.8,17.9,25.2,20.1,20.7,21.4,19.8,24.5]:
Y:=[23,26.8,28,23.4,22.5,20.8,22.4,21.8,18.5,23.5,18.7,20.4]:#Исходные данные задачи

>with(stats[statplots]):plots[display]({scatterplot(X,Y)},view=[min(seq(X[i],i=1..n))-1..max(seq(X[i],i=1..n))+1,min(seq(Y[i],i=1..n))-1..max(seq(Y[i],i=1..n))+1],axes=FRAME,symbol=circle,symbolsize=15);#Построение корреляционного поля
Warning, these names have been redefined: boxplot, histogram, scatterplot, xscale, xshift, xyexchange, xzexchange, yscale, yshift, yzexchange, zscale, zshift
>sx:=describe[mean](X);sy:=describe[mean](Y);#Нахождение средних массивов Х и У
sx := 23.38333333
sy := 22.48333333
>m2:=n*describe[moment[2,mean]](X):
>dispX:=describe[variance](X);#Нахождение дисперсии Х
dispX := 19.34805556
>sigmaX:=describe[standarddeviation](X);sigmaY:=describe[standarddeviation](Y);#Нахождение выборочных средних квадратических отклонений
sigmaX := 4.398642468
sigmaY := 2.723916706
>covxy:=describe[covariance](X,Y);#Нахождение ковариационного момента
covxy := 9.393888883
>b:=covxy/(sigmaX)^2;a:=sy-b*sx;#Нахождение параметров линейной регрессии
b := .4855210827
a := 11.13023201
>y:=x->a+b*x;#Задаётся функция линейной регрессии
y := xa + b x
>fit[leastsquare[[x,y]]]([X,Y]);#Уравнение линейной регрессии можно получить ещё и так
y = 11.13023201+.4855210831x
>A:=sum('abs((Y[i]-y(X[i]))/y(X[i]))','i'=1..n)*100/n;#Средняя ошибка апроксимации
A := 6.732799936
>if A<12 then `admissible, as far as А<12%` else `inadmissible, as far as A>12%` fi;
`admissible, as far as А<12%`
>pic1:=plot(y(x),XRange,labels=[x,y],thickness=2):#Картинка линейной регрессии
>pXY:=[[X[i],Y[i]] $i=1..n]: XRange:=x=min(seq(X[i],i=1..n))-2..max(seq(X[i],i=1..n))+1:#Формирование корреляционного поля
>pic2:=pointplot(pXY,symbol=circle,symbolsize=15,color=blue):#Картинка корреляционного поля
>plots[display](pic1,pic2);
>s:=sqrt((1/(n-2))*sum((y(X[i])-Y[i])^2,i=1..n));#Находится несмещённая оценка дисперсии
s := 1.852174219
>fit[leastsquare[[x,y], y=a*x^2+b*x+c]]( [X,Y]);#Показывается,в частности,получение уравнения квадратичной регрессии
y = 11.13023201 x ² +0.4855210827 x - 6290.009467
>t:=2.23:#Значение статистики Стьюдента при k=n-2=10 степеней свободы и 5% уровнем значимости
>s2:=(sum(y(X[i])-Y[i],i=1..n)/sqrt(n-2)):evalf(%);
-.2529822128·10-7
>pic3:=plot(y(x)-t*s*sqrt(1/n+(x-sx)^2/m2),XRange,thickness=2,color=blue):pic4:=plot(y(x)+t*s*sqrt(1/n+(x-sx)^2/m2),XRange,thickness=2,color=blue):#Картинки границ для условного математического ожидания (синяя граница)
>plots[display](pic1,pic2,pic3,pic4);# Совмещение картин(создание общей картины)
>pic3:=plot(y(x)-t*s*sqrt(1/n+(x-sx)^2/m2),XRange,thickness=2,color=blue):pic4:=plot(y(x)+t*s*sqrt(1/n+(x-sx)^2/m2),XRange,thickness=2,color=blue):pic5:=plot(y(x)-t*s*sqrt(1+1/n+(x-sx)^2/m2),XRange,thickness=2,color=black,linestyle=4):pic6:=plot(y(x)+t*s*sqrt(1+1/n+(x-sx)^2/m2),XRange,thickness=2,color=black,linestyle=4):#Картинки границ для условного математического ожидания (синяя граница) и для прогнозов индивидуальных значений (пунктирная линия)
>plots[display](pic1,pic2,pic3,pic4,pic5,pic6);# Совмещение картин(создание общей картины)
>x:=sx:[y(x)-t*s*sqrt(1+1/n-(x-sx)^2/m2),y(x)+t*s*sqrt(1+1/n+(x-sx)^2/m2)];#Границы доверительного интервала для индивидуального значения, равного среднему массива Х
[18.18433030, 26.78233636]
>[y(x)-t*s*sqrt(1/n-(x-sx)^2/m2),y(x)+t*s*sqrt(1/n+(x-sx)^2/m2)];#Границы доверительного интервала для условного математического ожидания
[21.29100442, 23.67566224]
>[b-t*s/m2,b+t*s/m2];#Интервальная оценка углового коэффициента линейной регрессии
[.4677314031, .5033107623]
>rxy:=b*sigmaX/sigmaY;# коэффициент корреляции
rxy := .7840304545
>rxy^2;# коэффициент детерминации
.6147037536
>F:=(rxy^2/(1-rxy^2))*(n-2);#Фактическое значение F-критерия Фишера
F := 15.95405508
>f:=1.44:#Табличное значение F-критерия Фишера
>if F>f then `significant` else `insignificant`fi;#Определение значимости уравнения регрессии
significant