ЛЕКЦИЯ 7

  1. Определение доверительных интервалов для коэффициентов и функции регрессии.
  2. Доверительный интервал для функции регрессии.
  3. Доверительный интервал для параметра σ ².
  4. Пример.
  5. Оценка значимости множественной регрессии.
  6. Коэффициенты детерминации R2 и .
  7. Пример.
  8. Вопросы для самопроверки.

Определение доверительных интервалов для коэффициентов и функции регрессии

   В силу соотношения
и
,
оценка  дисперсии  коэффициента регрессии bj определяется по формуле
,
где s2 — несмещённая оценка параметра σ2;  — диагональный элемент матрицы (X T·X)-1. Среднее квадратическое отклонение (стандартная ошибка) коэффициента регрессии bj примет вид
.
   Значимость коэффициента регрессии bj можно проверить, если учесть, что статистика
имеет t – распределение Стьюдента с k = n – p – 1 степенями свободы. Поэтому bj значимо отличается от нуля на уровне значимости α, если
где tα; n - p - 1 — табличное значение t – критерия Стьюдента, определённое на уровне значимости α при числе степеней свободы k = n – p – 1.
   В общей постановке гипотеза Н0 о равенстве параметра βj заданному числу βj0, то есть Н0: βj = βj0, отвергается. Если
,
параметры уравнения значимы, и доверительным интервалом для параметров βj будет
.

Доверительный интервал для функции регрессии

   Наряду с интервальным оцениванием коэффициентов регрессии весьма важным для оценки точности определения зависимой переменной (прогноза) является построение доверительного интервала для функции регрессии или для условного математического ожидания зависимой переменной Мх(Y), найденного в предположении, что объясняющие переменные Х1, Х2,..., Хp приняли значения, задаваемые вектором X'0 = (l, xl0, х20, ... xр0).
   Выше такой интервал получен для уравнения парной регрессии. Обобщая соответствующие выражения на случай множественной регрессии, можно получить доверительный интервал для МХ(Y):
,
где ŷ — групповая средняя, определяемая по уравнению регрессии,
,
— ее стандартная ошибка.
   Аналогичный доверительный интервал для индивидуальных значений зависимой переменной y0* примет вид:
,
где
,

Доверительный интервал для параметра σ ²

   Доверительный интервал для параметра σ ² в множественной регрессии строится аналогично парной модели по формуле с соответствующим изменением числа степеней свободы критерия χ ²

Пример

   По данным рассматриваемого примера оценить доход компании с оборотом капитала x1 = 40,3 млн. руб. и используемым капиталом х2 = 20,2 млн. руб.; найти 95%-ные доверительные интервалы для индивидуального и среднего значений дохода компании. Проверить значимость коэффициентов регрессии и построить для них 95%-ные доверительные интервалы. Найти интервальную оценку для дисперсии σ ².
   Решение. В примере уравнение регрессии получено в виде
.
По условию надо оценить Mx(Y), где ХT0 = (1; 40,3; 20,2). Выборочной оценкой МХ(Y) является групповая средняя, которую найдем по уравнению регрессии:
.
   Для построения доверительного интервала для Мх(Y) необходимо знать дисперсию его оценки . Для ее вычисления обратимся к таблице (точнее к ее двум последним столбцам, при составлении которых учтено, что групповые средние определяются по полученному уравнению регрессии).
 yх1х2x1²x2²y ²x1 x2x1 yx2 yŷ ee ²
13186,532442,2591175419,51,848251,151751,327
23,316,715,4278,89237,1610,89257,1855,1150,823,21890,08110,007
33,616,213,3262,44176,8912,96215,4658,3247,882,914850,685150,469
45,553,127,12819,61734,4130,251439,01292,05149,054,106151,393851,943
5335,316,41246,09268,969578,92105,949,22,9230,0770,006
62,793,625,48760,96645,167,292377,44252,7268,582,8783 − 0,1783 0,032
72,431,512,5992,25156,255,76393,7575,6302,42725 − 0,02725 0,001
81,813,86,5190,4442,253,2489,724,8411,71,94905 − 0,14905 0,022
91,630,415,8924,16249,642,56480,3248,6425,282,9503 − 1,3503 1,823
100,931,318,9979,69357,210,81591,5728,1717,013,39525 − 2,49525 6,226
116,5107,950,411642,412540,1642,255438,16701,35327,66,29760,20240,041
123,616,213,3262,44176,8912,96215,4658,3247,882,914850,685150,469
Σ37,9464221,528683,385627,23146,9712193,971755,02844,5  12,366
средн3,1638,6718,462390,28468,9412,251016,16146,2570,38   
 b01,302          
 b1 − 0,024           
 b20,1505          
Теперь по по формуле (18)
и
s = √1,37 = 1,17 (млн. руб.).
Определяем стандартную ошибку групповой средней ŷ по формуле
.
Вначале найдем
Теперь
   По таблице приложений при числе степеней свободы k = 12 − 2 − 1 = 9 находим t0,05; 9 = 2,262. Доверительный интервал для Мx(Y) равен
3,577 − 2,262·0,35 ≤ Mx(Y) ≤ 3,577 + 2,262·0,35
или
2,79 ≤ Mx(Y) ≤ 4,37 (млн. руб.)
   Итак, с надежностью 0,95 средняя средняя прибыль предприятия с оборотом капитала x1 = 40,3 млн. руб. и используемым капиталом х2 = 20,2 млн. руб. будет находиться в пределах от 2,79 до 7,37 (млн. руб.)
   Найдем доверительный интервал для индивидуального значения у0* при ХT0 = (l; 40,3; 20,2):
и
3,577 − 2,262·1,22 ≤ y*0 ≤ 3,577 + 2,262·1,22
т.е.
0,82 ≤ y*0 ≤ 6,34 (млн. руб.)
   Итак, с надежностью 0,95 индивидуальное значение прибыли предприятия с оборотом капитала x1 = 40,3 млн. руб. и используемым капиталом х2 = 20,2 млн. руб. будет находиться в пределах от 0,82 до 6,34 (млн. руб.)
   Проверим значимость коэффициентов регрессии b1 и b2. В примере получены b1 = − 0,024 и b2 = 0,1505. Стандартная ошибка s b1 в равна
.
   Так как
,
то коэффициент b1 незначим.
   Аналогично вычисляем
и
,
т.е. коэффициент b2 значим на 5% − ном уровне.
   Доверительный интервал имеет смысл построить только для значимого коэффициента регрессии b2:
0,1505 − 2,262·0,066 < β2 <0,1505 + 2,262·0,066 , или 1,208·10-3 < β2 < 0,3.
   Итак, с надежностью 0,95 за счет изменения на 1 млн. руб используемого капитала (при неизменном обороте капитала ) доход компании Y будет изменяться в пределах от 1,208·10-3 до 0,3 (млн. руб.).
   Найдем 95% − ный доверительный интервал для параметра σ ². Учитывая, что α = 0,05, найдем по таблице χ ² приложений n − р − 1 = n − 2 − 1 = n − 3 = 9 степенях свободы
;
.
Таким образом, по формуле имеем
,
или
0,86 ≤ σ2 ≤ 6,1   и    0,93 ≤ σ ≤ 2,47.
   Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,86 до 6,1, а их стандартное отклонение - от 0,93 до 2,47 (млн. руб.).
   Формально переменные, имеющие незначимые коэффициенты регрессии, могут быть исключены из рассмотрения. В экономических исследованиях исключению переменных из регрессии должен предшествовать тщательный качественный анализ. Поэтому может оказаться целесообразным все же оставить в регрессионной модели одну или несколько объясняющих переменных, не оказывающих существенного (значимого) влияния на зависимую переменную.

Оценка значимости множественной регрессии

   Как и в случае парной модели, в модели множественной регрессии общая вариация Q — сумма квадратов отклонений зависимой переменной от средней может быть разложена на две составляющие:
Q = QR + Qe,
где QR, Qe — соответственно сумма квадратов отклонений, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.
   Получим более удобные формулы для сумм квадратов Q, QR и Qe, не требующие вычисления значений ŷi обусловленных регрессией, и остатков е.
   Для Q имеем
так как
.
   Далее
,
поскольку bT·XT·X·b = bT·XT·Y.
   Наконец,
.
Уравнение множественной регрессии значимо, если
,  (1)
где Fα;p;n - p - 1 — табличное значение F – критерия Фишера – Снедекора.

Коэффициенты детерминации R2 и

   Коэффициент детерминации R2 является одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой его прогностической силы.
   Коэффициент детерминации R2 вычисляется соотношением
. (2)
Коэффициент детерминации может быть модифицирован:
,
или
,
где e = Y − X·b, Y = (y, y, … , y), y = (YY)  — n – мерные векторы.
   Коэффициент детерминации R2 характеризует долю вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющих переменных; чем ближе R2 к единице, тем лучше регрессия описывает зависимость между объясняющими и зависимой переменными.
   Вместе с тем использование только одного коэффициента детерминации R2 для выбора наилучшего уравнения регрессии может оказаться недостаточным. Плохо определённая модель регрессии может дать сравнительно высокий коэффициент R2.
   Недостатком коэффициента детерминации R2 является то, что он увеличивается при добавлении новых объясняющих переменных, хотя это не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный коэффициент детерминации
 (3)
Или
. (3')
   Из (3) следует, что чем больше число объясняющих переменных р, тем меньше по сравнению с R2. В отличие от R2 скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную. Однако даже увеличение скорректированного коэффициента детерминации при введении в модель новой объясняющей переменной не всегда означает, что ее коэффициент регрессии значим (это происходит только в случае, если соответствующее значение t - статистики больше единицы (по абсолютной величине), т. е. | t | > 1. Другими словами, увеличение еще не означает улучшения качества регрессионной модели.
   Если известен коэффициент детерминации, то критерий значимости (1) уравнения регрессии может быть записан в виде:
,
где k1 = p, k2 = n – p – 1, поскольку в уравнении множественной регрессии вместе со свободным членом оценивается m = p + 1 параметров.

Пример

   По данным примера определить множественный коэффициент детерминации и проверить значимость полученного уравнения регрессии Y no X1 и Х2 на уровне α = 0,05.
   Решение. Вычислим произведения векторов:
и (см. итоговую строку таблицы). Из таблицы находим и по формуле (2) находим множественный коэффициент детерминации
.
   Коэффициент детерминации R2 = 0,54 свидетельствует о том, что вариация исследуемой зависимой переменной Y - дохода компании на 54% объясняется изменчивостью включенных в модель объясняющих переменных - оборота капитала Х1 и используемого капитала Х2.
   Проделав аналогичные расчеты по данным примера для одной объясняющей переменной Х2, можно было получить R'2 =0,5 (заметим, что в случае одной объясняющей переменной коэффициент детерминации R'2 равен квадрату парного коэффициента корреляции r2). Сравнивая значения R2 и R'2, можно сказать, что добавление второй объясняющей переменной Х2 незначительно увеличило величину коэффициента детерминации, определяющего качество модели.
   По формуле (3) вычислим скорректированный коэффициент детерминации:
при р = 1 ;
при р = 2 .
   Видим, что скорректированный коэффициент детерминации не увеличился при добавлении объясняющей переменной Х1, но это еще не говорит о незначимости коэффициента b1.
   Зная R2=0,54, проверим значимость уравнения регрессии. Фактическое значение критерия по (1):
больше табличного F0,05;2;9= 4,26, определенного на уровне значимости α = 0,05 при k1 = p = 2 и k2 = 12 − 2 − l = 9 степенях свободы, т. е. уравнение регрессии значимо, следовательно, исследуемая зависимая переменная Y достаточно хорошо описывается включенными в регрессионную модель переменными Х1 и Х2.

Вопросы для самопроверки

  1. Сформулируйте теорему Гаусса – Маркова.
  2. Какой критерий используется для проверки значимости регрессии?
  3. Как находятся коэффициенты детерминации в множественном регрессионном анализе?
  4. Какой вид имеет критерий значимости уравнения регрессии, если известен коэффициент детерминации?
  5. Как находится стандартная ошибка коэффициентов регрессии?
  6. Как проверяется значимость коэффициентов уравнений регрессии?
  7. Что называется частной корреляцией?
  8. Имеются следующие данные о выработке литья на одного работающего Х1 (т), браке литья Х2 (%) и себестоимости 1 т литья Y (руб.) по 25 литейным цехам заводов:
    i12345678910111213141516171819202122232425
    x1i14,613,521,517,444,8111,920,128,122,325,356,040,240,675,827,688,416,633,417,033,130,165,222,633,419,7
    x2i4,26,75,57,71,22,28,41,44,20,91,31,83,33,41,10,14,12,39,33,33,51,05,22,32,7
    yi239254262251158101259186204198170173197172201130251195282196186176238204205
   Необходимо:
  • Имеются следующие данные о годовых ставках месячных доходов по трем акциям за шестимесячный период:
    АкцияДоходы по месяцам, %
    А
    В
    С
    5,4
    6,3
    9,2
    5,3
    6,2
    9,2
    4,9
    6,1
    9,1
    4,9
    5,8
    9,0
    5,4
    5,7
    8,7
    6,0
    5,7
    8,6

    Есть основания предполагать, что доходы Y по акции С зависят от доходов Х1 и Х2 по акциям A и В. Необходимо:
    • а) составить уравнение регрессии Y по Х1 и Х2;
    • б) найти множественный коэффициент детерминации R2 и пояснить его смысл;
    • в) проверить значимость полученного уравнения регрессии на уровне α = 0,05;
    • г) оценить средний доход по акции С, если доходы по акциям А и В составили соответственно 5,5 и 6,0%.