ЛЕКЦИЯ 12

ВВЕРХ

Обобщенная линейная модель множественной регрессии

Обобщенный метод наименьших квадратов

Гетероскедастичность пространственной выборки

Тесты на гетероскедастичность

Тест ранговой корреляции Спирмена

Тест Голдфелда-Квандта

Тест Уайта

Тест Глейзера

Устранение гетероскедастичности

Упражнение

Главная страница раздела 1

Главная страница раздела 2

Задание 1

Задание 2

Литература

Для доступа к меню нажмите правую кнопку мыши.

ЛЕКЦИЯ 12

Обобщенная линейная модель множественной регрессии

При моделировании реальных экономических процессов нередко приходиться сталкиваться с ситуациями, в которых условия классической линейной модели регрессии оказываются нарушенными. В частности, могут не выполняться предпосылки 3 и 4 регрессионного анализа о том, что случайные возмущения модели имеют постоянную дисперсию и не коррелированы между собой. Для линейной множественной модели эти предпосылки означают, что ковариационная матрица вектора возмущений ε имеет вид: Σ_ε = σ² E_n. В тех случаях, когда имеющиеся статистические данные достаточно однородны, допущение Σ_ε = σ² E_n вполне оправдано. Однако в других ситуациях оно может оказаться неприемлемым. Так, например, при использовании зависимости расходов на потребление от уровня доходов семей можно ожидать, что в более обеспеченных семьях вариация расходов выше, чем в малообеспеченных, т. е. дисперсии возмущений не одинаковы. При рассмотрении временных рядов часто сталкиваются с ситуацией, когда наблюдаемые в данный момент значения зависимой переменной коррелируют с их значениями в предыдущие моменты времени, т. е. наблюдается корреляция между возмущениями в разные моменты времени.
Обобщенная линейная модель множественной регрессии Y = X β + ε (12.1) в которой переменные и параметры описывается следующей системой соотношений и условий:

ε – случайный вектор; X - неслучайная (детерминированная) матрица;
M(ε) = 0_n;
Σ_ε = M(ε ε ') = Ω, , где Ω - положительно определенная матрица;
r (X) = p + 1 < n,
где р - число объясняющих переменных; n - число наблюдений.

Сравнивая обобщенную модель с классической , видим, что она отличается от классической только видом ковариационной матрицы: вместо Σ_ε = σ² E_n для классической модели имеем Σ_ε = Ω для обобщенной. Это означает, что в отличие от классической, в обобщенной модели ковариации и дисперсии объясняющих переменных могут быть произвольными. В этом состоит суть обобщения регрессионной модели. Для оценки параметров модели (12.1) можно применить обычный метод наименьших квадратов.
Оценка b = (X ' X)^-1X ' Y, полученная ранее и определенная соотношением, остается справедливой и в случае обобщенной модели. Оценка b по-прежнему несмещенная (доказательство точно такое же) и состоятельная.
Однако полученная ранее формула для ковариационной матрицы вектора оценок Σ_b оказывается неприемлемой в условиях обобщенной модели. Σ_b* = (Х ' Х)^-1 Х ' М(ε ε ') X (Х ' Х)^-1 = (Х ' Х)^-1 X ' Ω X (Х ' Х)^-1 (12.2) в то время как для классической модели имели по формуле Σ_b = σ² (Х ' Х)^-1 (12.3) Найдем математическое ожидание остаточной суммы квадратов

. Используя преобразования, аналогичные приведенным, можно показать, что для обобщенной модели М (е ' е) = tr [ E_n - Х (Х ' Х)^-1 Х ') Ω] , (12.4) т. е. в соответствии с формулой (18)

(12.5) где символ tr означает след соответствующей матрицы.
Следовательно, если в качестве оценки ковариационной матрицы Σ_b в соотношении (12.3) заменить σ² на s², т. е. взять матрицу Σ_b = s²(X ' X )^-1, то ее математическое ожидание

(12.6) в общем случае не совпадает с ковариационной матрицей, определенной соотношением (12.2). Это означает, что обычный метод наименьших квадратов в обобщенной линейной регрессионной модели дает смещенную оценку ковариационной матрицы Σ_b, вектора оценок b.
Оценка b, определенная выше, хотя и будет состоятельной, но не будет оптимальной в смысле теоремы Гаусса-Маркова. Для пблучения наиболее эффективной оценки нужно использовать другую оценку, получаемую так называемым обобщенным методом наименьших квадратов.

Обобщенный метод наименьших квадратов

   Вопрос об эффективности линейной несмещенной оценки вектора β для обобщенной регрессионной модели решается с помощью следующей теоремы.
   Теорема Айткена. В классе линейных несмещенных оценок вектора β для обобщенной регрессионной модели оценка β*=(X ' Ω^-1 X)^-l X 'Ω^-1Y                        (12.7) имеет наименьшую ковариационную матрицу.
   Доказательство. Убедимся в том, что оценка β* является несмещенной. Учитывая (12.1), представим ее в виде: β*=(X 'Ω^-1 X)^-1 X ' Ω^-1 (Xβ + ε) = (X ' Ω^-1 X)^-1(X ' Ω^-1 X)β + (X ' Ω^-1 X)^-1 X ' Ω^-1 ε = β + (X ' Ω^-1 X)^-1 X 'Ω^-1 ε. (12.8)    Математическое ожидание оценки b*, т.е. M(b*) = β, ибо М(ε) = О, т. е. оценка b* есть несмещенная оценка β.
   Для доказательства оптимальных свойств оценки b* преобразуем исходные данные - матрицу X, вектор Y возмущение ε к виду, при котором выполнены требования классической модели регрессии.
   Из матричной алгебры известно, что всякая невырожденная симметричная (n×n ) матрица А допускает представление в виде А = Р Р ', где Р - некоторая невырожденная (n×n) матрица.
   Поэтому существует такая невырожденная (n×n ) матрица Р, что Ω = Р Р '                         (12.8') (представление матрицы Ω в виде (12.8') не единственно, но для нас это не имеет значения).
   Учитывая свойства обратных квадратных матриц, т. е. (A B)^-1 = В^-1 А^-1 и (Р ')^-1 = (Р^-1)' , это означает, что Ω^-1 = (P^-1)' P^-1.                         (12.9)    Заметим, что если обе части равенства (12.8') умножить слева на матрицу Р^-1, а справа - на матрицу (Р')^-1 = (Р^-1)', то в произведении получим единичную матрицу.
   Действительно, P ^-1Ω (P ' )^-1 = P ^-1(P P ' ) (P ' )^-1 = (P ^-1 P ) P ' (P ' )^-1 = E_n, т.е. P ^-1Ω (P^-1 ) ' = E_n, .                        (12.10) Теперь, умножив обе части обобщенной регрессионной модели Y = X β + ε на матрицу Р^-1 слева, получим Y_* = X_* β + ε_*                         (12.11) где Y_* = P ^-1 Y,   X_* = P ^-1 X,   ε_* = P ^-1 ε                         (12.12) Убедимся в том, что модель (12.11) удовлетворяет всем требованиям классической линейной модели множественной регрессии: M (ε_*) = M (P ^-1 ε) = P ^-1 M (ε) = 0, ибо M (ε) = 0; Σ_{ε_*} = M (ε_* ε'_*) = M [(P^-1ε) (P^-1 ε ') '] = M [P^-1 ε ε ' (P^-1) '] = P^-1 M (ε ε ' ) (P^-1) ' = P^-1 Ω (P^-1 ) ' = E_n (учитывая (12.10)); r(X) = p + 1 < n (так как матрица Р - невырожденная).
   Следовательно, на основании теоремы Гаусса-Маркова наиболее эффективной оценкой в классе всех линейных несмещенных оценок является оценка (смотри здесь), т. е. b_* =(X_* ' X_*)^-1 X_* ' Y_*                        (12.13) Возвращаясь к исходным наблюдениям X и Y и учитывая (12.9), получим b^* = [(P^-1 X) ' ( P ^-1 X )]^-1(P ^-1 X) ' P ^-1 Y = [X ' (P ^-1) ' P^-1X ]^-1 X ' (P ^-1) ' P^-1 Y = (X ' Ω^-1 X)^-1 X ' Ω^-1Y т. е. выражение (12.7), что и требовалось доказать.
   Нетрудно проверить, что в случае классической модели, т. е. при выполнении предпосылки Σ_ε = Ω = σ² E_n, оценка обобщенного метода наименьших квадратов b* (12.7) совпадает с оценкой "обычного" метода b.
   При выполнении предпосылки 5 о нормальном законе распределения вектора возмущений ε можно убедиться в том, что оценка b* обобщенного метода наименьших квадратов для параметра β при известной матрице Ω совпадает с его оценкой, полученной методом максимального правдоподобия.
   Оценка b* = (X_* '· X_*) ^-1· X '_*· Y_* является точкой минимума по b остаточной суммы квадратов

. Переходя к исходным наблюдениям, S = [P^-1(Y - X b) ] ' [P^-1(Y - X b) ] = (Y - X b)' (P^-1)' P^-1 (Y - X b) =
= (Y - X b)' Ω^-1 (Y - X b) = e' Ω^-1 e (12.14) т. е. оценка b* обобщенного метода наименьших квадратов может быть определена как точка минимума обобщенного критерия e' Ω^-1 e (12.14).
Следует отметить, что для обобщенной регрессионной модели, в отличие от классической, коэффициент детерминации, вычисленный по формуле

                        (7.15) (где b* - оценка обобщенного метода наименьших квадратов (12.7)), не является удовлетворительной мерой качества модели. В общем случае R² может выходить даже за пределы интервала [0; 1], а добавление (удаление) объясняющей переменной не обязательно приводит к его увеличению (уменьшению).
   Причина состоит в том, что разложение общей суммы квадратов Q на составляющие Q_R и Q_e выводилось в предположении наличия свободного члена в обобщенной модели. Однако, если в исходной модели (12.1) содержится свободный член, то мы не можем гарантировать его присутствие в преобразованной модели (12.11). Поэтому коэффициент детерминации R² в обобщенной модели может использоваться лишь как весьма приближенная характеристика качества модели.
   В заключение отметим, что для применения обобщенного метода наименьших квадратов необходимо знание ковариационной матрицы вектора возмущений Ω, что встречается крайне редко в практике эконометрического моделирования. Если же считать все n(n + 1)/2 элементов симметричной ковариационной матрицы Ω неизвестными параметрами обобщенной модели (в дополнении к (p + 1) параметрам β_i), то общее число параметров значительно превысит число наблюдений n, что сделает оценку этих параметров неразрешимой задачей. Поэтому для практической реализации обобщенного метода наименьших квадратов необходимо вводить дополнительные условия на структуру матрицы Ω. Так мы приходим к практически реализуемому (или доступному) обобщенному методу наименьших квадратов, рассматриваемому далее.
   Далее рассмотрим наиболее важные и часто встречающиеся виды структур матрицы Ω.

Гетероскедастичность пространственной выборки

   Как уже отмечалось выше, равенство дисперсий возмущений (ошибок) регрессиии ε_i, (гомоскедастичность) является существенным условием линейной классической регрессионной модели множественной регрессии, записываемым в виде Σ_ε = σ² E_n.
   Однако на практике это условие нередко нарушается, и мы имеем дело с гетероскедастичностъю модели.
   Предположим, что необходимо изучить зависимость размера оплаты труда Y (в усл. ден. ед.) сотрудников фирмы от разряда X, принимающего значения от 1 до 10. Получены n = 100 пар наблюдений (х_i, у_i). График зависимости переменной Y от номеров наблюдений, упорядоченных по возрастанию уровня значений объясняющей переменной X, показан на рисунке.
   Из рисунке видно, что вариация размера оплаты труда сотрудников высоких уровней значительно превосходит его вариацию для сотрудников низких уровней. Следовательно, можно предположить, что регрессионная модель получится гетероскедастичной, и условие Σ_ε = σ² E_n не выполняется.
   Мы еще вернемся к этому примеру, а пока обсудим, к каким последствиям приводит гетероскедастичность.
   Предположим, что для оценки регрессионной модели Y по Х₁,.., Х_т мы применили обычный метод наименьших квадратов и нашли оценку b параметра β. Тогда с учетом (10) будем иметь b = (Х ' Х)^-1 Х ' Y = β + (Х ' Х)^-1 Х ' ε.                        (12.16) Как было отмечено выше, b - несмещенная и состоятельная оценка параметра β для обобщенной линейной модели множественной регрессии; следовательно, и в частном случае, когда модель гетероскедастична, оценка b - несмещенная и состоятельная. Эти свойства оценки b легко усматриваются из (12.16), если учесть, что M(ε) = 0.
   Таким образом, для определения неизвестных {прогнозных) значений зависимой переменной обычный метод наименьших квадратов, вообще говоря, применим и для гетероскедастичной модели.
   Так, в нашем примере изучения зависимости размера оплаты от разряда X сотрудников фирмы регрессионная модель Y по X примет вид: ŷ = 225,2 + 44,99 x, которая вполне может быть использована для практических приложений.
   Однако результаты, связанные с анализом точности модели, оценкой значимости и построением интервальных оценок ее коэффициентов, оказываются непригодными.
   В самом деле, при построении t и F - статистик, которые служат инструментом для проверки (тестирования) гипотез, существенное значение имеют оценки дисперсий и ковариаций параметров β_j ( j = 1,..., n), т. е. ковариационная матрица Σ_b. Между тем, если модель не является классической, т. е. ковариационная матрица вектора возмущений Σ_ε = Ω ¹ σ² E_n, то, как показано выше, ковариационная матрица вектора оценок параметров Σ _b = (X ' X)^-1X ' Ω X ( X ' X)^-1 (12.2) существенно отличается от полученной для классической модели Σ _b = σ² ( X ' X)^-1 (12.3). А значит, использование матрицы Σ _b (12.2) для оценки точности регрессионной модели (12.1) может привести к неверным выводам.
   Напомним также, что оценка b (12.16), оставаясь несмещенной и состоятельной, не будет оптимальной в смысле теоремы Гаусса-Маркова, т. е. наиболее эффективной. Это означает, что при небольших выборках мы рискуем получить оценку b, существенно отличающуюся от истинного параметра β.

Тесты на гетероскедастичность

   В примере, рассмотренном выше, наличие гетероскедастич-ности не вызывает сомнения, - чтобы убедиться в этом, достаточно взглянуть на рисунок. Однако в некоторых случаях гетероскедастичность визуально не столь очевидна.
   Рассмотрим еще один пример, в котором исследуется зависимость дохода индивидуума (Y) от уровня его образования Х₁, принимающего значения от 1 до 5, по данным n = 150 наблюдений. В число объясняющих переменных (регрессоров) включен также и возраст X₂.
   На рисунке приведен график зависимости переменной Y от номеров наблюдений, упорядоченных по возрастанию уровня значений объясняющей переменной Х₁.
   Хотя диаграмма имеет локально расположенные пики, в целом подобный рисунок может соответствовать как гомо-, так и гетероскедастичной выборке.
   Чтобы определить, какая же именно ситуация имеет место, используются тесты на гетероскедастичность.

Тест ранговой корреляции Спирмена

   Тест ранговой корреляции Спирмена использует наиболее общие предположения о зависимости дисперсий ошибок регрессии от значений регрессоров: σ² = f_i(x_i), i = 1,..., n. При этом никаких дополнительных предположений относительно вида функций f_i не делается. Не накладываются также ограничения на закон распределения возмущений (ошибок) регрессии ε_i.
   Идея теста заключается в том, что абсолютные величины остатков регрессии ε_i являются оценками σ_i поэтому в случае гетероскедастичности абсолютные величины остатков ε_i и значения регрессоров х_i будут коррелированы.
   Для нахождения коэффициента ранговой корреляции ρ_х,е следует ранжировать наблюдения по значениям переменной x_i и остатков e_i и вычислить ρ_х,е по формуле (7):

(12.17) где d_i - разность между рангами значений х_i, и e_i.
В соответствии с (8) коэффициент ранговой корреляции значим на уровне значимости α при n > 10, если статистика

(12.18) где t_{α, n-2} - табличное значение t - критерия Стьюдента, определенное на уровне значимости α при числе степеней свободы (n - 2).

Тест Голдфелда-Квандта

   Этот тест применяется в том случае, если ошибки регрессии можно считать нормально распределенными случайными величинами.
   Предположим, что средние квадратические (стандартные) отклонения возмущений σ_i, пропорциональны значениям объясняющей переменной X (это означает постоянство часто встречающегося на практике относительного (а не абсолютного, как в классической модели) разброса возмущений ε_i регрессионной модели.
   Упорядочим n наблюдений в порядке возрастания значений регрессора Х и выберем m первых и m последних наблюдений.
   В этом случае гипотеза о гомоскедастичности будет равносильна тому, что значения е₁,..., е_m и е_n-m+1,..., е_n (т. е. остатки e_i регрессии первых и последних m наблюдений) представляют собой выборочные наблюдения нормально распределенных случайных величин, имеющих одинаковые дисперсии.
   Гипотеза о равенстве дисперсий двух нормально распределенных совокупностей проверяется с помощью критерия Фишера-Снедекора.
Гипотеза о гетероскедастичности принимается, если

                        (12.19) где р - число регрессоров.
   Заметим, что числитель и знаменатель в выражении (12.19) следовало разделить на соответствующее число степеней свободы, но в данном случае эти числа одинаковы и равны (m - р).
   Мощность теста, т. е. вероятность принять гипотезу о гетероскедастичности, когда действительно гетероскедастичности нет, оказывается максимальной, если выбирать m порядка m/3.
   При применении теста Голдфедда-Квандта на компьютере нет необходимости вычислять значение статистики F вручную, так как величины

представляют собой суммы квадратов остатков регрессии, осуществленных по "урезанным" выборкам.
   Пример 1. По данным n = 150 наблюдений о доходе индивидуума Y (см. рисунок), уровне его образования Х₁ и возрасте X₂ выяснить, можно ли считать на уровне значимости α = 0,05 линейную регрессионную модель Y по Х₁ и X₂ гетероскедастичной.
   Решение. Возьмем по m = n/3 = 150/3 = 50 значений доходов лиц с наименьшим и наибольшим уровнем образования Х₁.
   Вычислим суммы квадратов остатков (само уравнение регрессии (12.22) приведено ниже):

; F = 3918,2/894,1 = 4,38. Так как в соответствии с (12.19) F = 4,38 > F_0,05;48;48 = 1,61, то гипотеза о наличии гетероскедастичности регрессионной модели принимается, т. е. доходы более образованных людей действительно имеют существенно большую вариацию.

Тест Уайта

   Тест ранговой корреляции Спирмена и тест Голдфедда-Квандта позволяют обнаружить лишь само наличие гетероскедастичности, но они не дают возможности проследить количественный характер зависимости дисперсий ошибок регрессии от значений регрессоров и, следовательно, не представляют каких-либо способов устранения гетероскедастичности.
   Для продвижения к этой цели необходимы некоторые дополнительные предположения относительно характера гетероскедастичности. Без подобных предположений невозможно оценить n параметров (и дисперсий ошибок регрессии σ²_i) с помощью n наблюдений.
   Наиболее простой и часто употребляемый тест на гетероскедастичность - тест Уайта. При использовании этого теста предполагается, что дисперсии ошибок регрессии представляют собой одну и ту же функцию от наблюдаемых значений регрессоров, т.е. σ²_i = f (x_i) i = 1,..., n.                         (12.20)    Чаще всего функция f выбирается квадратичной, что соответствует тому, что средняя квадратическая ошибка регрессии зависит от наблюдаемых значений регрессоров приближенно линейно. Гомоскедастичной выборке соответствует случай f = const.
   Идея теста Уайта заключается в оценке функции (12.20) с помощью соответствующего уравнения регрессии для квадратов остатков: e_i² = f (x_i) + u_i, i = 1,..., n, (12.21) где u_i - случайный член.
   Гипотеза об отсутствии гетероскедастичности (условие f = const) принимается в случае незначимости регрессии (12.21) в целом.
   Пример 2. Решить пример 1, используя тест Уайта.
   Решение. Применение метода наименьших квадратов дает следующее уравнение регрессии переменной Y (дохода индивидуума) по Х₁ (уровню образования) и Х₂ (возрасту): у = -3,06 + 3,25х₁ + 0,48 x₂.
(-1,40) (5,96)  (8,35) (В скобках указаны значения t - статистик коэффициентов регрессии.) Сравнивая их с табличным значением t_0,95;i47 = 1,98, видим, что константа оказывается незначимой.
    Если в число регрессоров уравнения (12.21) не включены попарные произведения переменных, то F = 7,12, если включены, то F = 7,78. В том и другом случае F > F_0,05;2;147 = 3,07, т. е. гипотеза о гетероскедастичности принимается.
   Заметим, что на практике применение теста Уайта с включением и невключением попарных произведений дают, как правило, один и тот же результат.

Тест Глейзера

   Этот тест во многом аналогичен тесту Уайта, только в качестве зависимой переменной для изучения гетероскедастичности выбирается не квадрат остатков, а их абсолютная величина, т. е. осуществляется регрессия | e_i | = f (x_i) + u_i, i = 1,..., n.                         (12.23) В качестве функций f обычно выбираются функции вида f = α + γ х^δ. Регрессия (12.23) осуществляется при разных значениях δ, затем выбирается то значение, при котором коэффициент γ оказывается наиболее значимым, т. е. имеет наибольшее значение t-статистики.
   Пример 3. По данным n = 100 наблюдений о размере оплаты труда Y (рисунок) сотрудников фирмы и их разряде X выявить, можно ли считать на уровне значимости α линейную регрессивную модель Y по X гетероскедастичной. Если модель гетероскедастична, то установить ее характер, оценив уравнение σ_i = f (x_i).
   Решение. Предположим, что дисперсии ошибок σ_i, связаны уравнением регрессии σ_i = α + γ х_i^δ                        (12.24) Используя обычный метод наименьших квадратов, оценим регрессию Y по X, а затем - регрессию остатков е по Х в виде функции (12.24) при различных значениях δ. Получим (в скобках указаны значения t - статистики коэффициента γ) при различных значениях δ: δ = 1 | е_i* | = 8,26 + 10,33 х_i (t = 7,18);
δ = 2 | е_i* | = 30,75 + 0,89 х_i (t = 6,90);
δ = 3 | е_i* | = 39,89 + 0,08 х_i (t = 6,32);
δ = 1/2 | е_i* | = 32,89 + 43,38

(t = 6,99). Так как все значения t-статистики больше t_0,95;98 = 1,99, то гипотеза о наличии гетероскедастичности принимается. Учитывая, что наиболее значимым коэффициент регрессии γ оказывается в случае δ = 1, гетероскедастичность можно аппроксимировать первым уравнением.

Устранение гетероскедастичности

Пусть рассматривается регрессионная модель Y = Xβ + ε (12.25) или

(12.25') Будем считать, что модель (12.25) гетероскедастична, т. е. дисперсии возмущений (ошибок) σ²_i (i = 1,..., n) не равны между собой, и сами возмущения ε_i и ε_k (k = 1,..., n) не коррелированы. Это означает, что ковариационная матрица вектора возмущений Σ_ε = Ω - диагональная:

(12.26) Если дисперсии возмущений σ²_i (i = l,..., n) известны, то гетероскедастичность легко устраняется. В самом деле, будем рассматривать в качестве i - го наблюдения зависимой Y и объясняющих переменных X_о (j = 1,..., р) нормированные по σ_i, переменные, т. е. Z = Y/σ_i, V_j = X_j/σ_i, i = 1,,.., n. Тогда модель (12.25) примет вид:

                        (12.27) где β'₀ = β₀/σ_i, v_i = ε_i/σ_i.
   Очевидно, дисперсия D(v_i) = 1, т. е. модель (12.27) гомоскедастична. При этом ковариационная матрица Σ_ε = Ω становится единичной, а сама модель (12.27) - классической.
   Применяя к линейной регрессионной модели (12.25) теорему Айткена, наиболее эффективной оценкой вектора β является оценка (12.7): b = ( X ' Ω^-1X )^-1X ' Ω Y.                        (7.28)    Применение формулы (12.28) для отыскания параметра β, т. е. обобщенный метод наименьших квадратов для модели с гетероскедастичностъю, когда ковариационная матрица возмущений Σ_ε = Ω есть диагональная матрица (12.26), называется взвешенным методом наименьших квадратов.
   Применяя обычный метод наименьших квадратов, неизвестные параметры регрессионной модели находим, минимизируя остаточную сумму квадратов

, используя обобщенный метод, минимизируя S = e ' Ω^-1 e, или в частном случае применяя взвешенный метод наименьших квадратов, минимизируя

. "Взвешивая" каждый остаток

с помощью коэффициента 1/σ_i, мы добиваемся равномерного вклада остатков в общую сумму, что приводит в конечном счете к получению наиболее эффективных оценок параметров модели.
На практике, однако, значения σ_i почти никогда не бывают известны. В этом случае при нахождении переменных в формуле (12.27) значения σ_i следует заменить их состоятельными оценками σ*_i.
Если исходить из предположения (12.20), то состоятельными оценками σ²_i являются прогнозные значения

регрессии (12.21).
   Оценка параметров регрессионной модели взвешенным методом наименьших квадратов реализована в большинстве компьютерных пакетов.
   Пример 4. По данным примера 1 оценить параметры регрессионной модели Y по Х₁ и X₂ взвешенным методом наименьших квадратов.
   Решение. В примере 2 к модели был применен обычный метод наименьших квадратов. При этом получен ряд остатков е_i.
   Оценим теперь регрессию вида

. Применяя обычный метод наименьших квадратов, получим уравнение:

. Применение взвешенного метода наименьших квадратов предполагает рассмотрение величины

и введе новых переменных

(i = l, ...,I50). Оценивая регрессию Y_*, по X_*1 и Х_*2 получаем уравнение:

что и дает нам оценки взвешенного метода наименьших квадратов.
   Если применить тест Уайта к последнему уравнению, получим F = 0,76 < F_0,05;2;147 = 3,06, откуда следует, что гетероскедастичность можно считать устраненной.
   На практике процедура устранения гетероскедастичности может представлять технические трудности. Дело в том, что реально в формулах (12.26) присутствуют не сами стандартные отклонения, ошибок регрессии, а лишь их оценки. А это значит, что модель (12.27) вовсе не обязательно окажется гомоскедастичной.
   Причины этого заключается в том, что не всегда оказывается справедливым само предположение (12.21) или (12.23). Кроме того функция f в формуле (12.21) или (12.23) не обязательно степенная (и уж тем более, не обязательно квадратичная), и в этом случае ее подбор может оказаться далеко не столь простым.
   Другим недостатком тестов Уайта и Глейзера является то, что факт невыявления ими гетероскедастичности не означает ее отсутствия по той причине, что принимаеется лишь тот факт, что отсутствует определенного вида зависимость дисперсий ошибок регрессии от значений регрессоров.
   Так, если применить к рассматриваемой ранее модели зависимости дохода Y от разряда X взвешенный метод наименьших квадратов, используя уравнение (12.23) с линейной функцией f, то получим уравнение ŷ = 196,47 + 50,6 х и коэффициент детерминации R² = 0,94.
Если теперь использовать тест Глейзера для проверки отсутствия гетероскедастичности "взвешенного" уравнения, то соответствующая гипотеза подтвердится.
   Если же для этой же цели применить тест Голдфелда - Квандта, то получим:

Сравнивая с F_0,05;32:32 = 1,84, делаем вывод о том, что на 5%-ном уровне значимости гетероскедастичность все же подтверждается, хотя и вычисленное значение F-статистики очень близко к критическому.
Однако, даже если с помощью взвешенного метода наименьших квадратов не удается устранить гетероскедастичность, ковариационная матрица Σ_b* оценок параметров регрессии β все же может быть состоятельна оценена (напомним, что именно несостоятельность стандартной оценки дисперсий и ковариаций β является наиболее неприятным последствием гетероскедастичности, в результате которого оказываются недостоверными результаты тестирования основных гипотез). Соответствующая оценка имеет вид:

. Стандартные отклонения, вычисленные по этой формуле, называются стандартными ошибками в форме Уайта.
Так, для рассматриваемого примера зависимости дохода Y от разряда X стандартная ошибка в форме Уайта равна 2,87, в то время как ее значение, рассчитанное с помощью обычного метода наименьших квадратов, равно 2,96.

Упражнение

В таблице приведены данные по 18 наблюдениям модели пространственной выборки:

i	х_i	e_i²	i	x_i	e_i²
1	21,3	2,3	10	71,5	23,8
2	22,6	5,6	11	75,7	45,7
3	32,7	12,8	12	76,0	34,7
4	41,9	10,1	13	78,9	56,9
5	43,8	14,6	14	79,8	56,8
6	49,7	13,9	15	80,7	49,8
7	56,9	24,0	16	80,8	58,9
8	59,7	21,9	17	96,9	87,8
9	67,8	19,7	18	97,0	87,5

Предполагая, что ошибки регрессии представляют собой нормально распределенные случайные величины, проверить гипотезу о гомоскедастичности, используя тест Голдфелда- Квандта.