Мультиколлинеарность

   В предыдущих главах была изучена классическая линейная модель регрессии, приведена оценка параметров модели и проверка статистических гипотез о регрессии. Однако мы не касались некоторых проблем, связанных с практическим использованием модели множественной регрессии. К их числу относятся: мультиколлинеарность, ее причины и методы устранения; использование фиктивных переменных при включении в регрессионную модель качественных объясняющих переменных, линеаризация модели, вопросы частной корреляции между переменными. Изучению указанных проблем посвящена данная глава.
   Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.
   При функциональной форме мультиколлинеарности, по крайней мере, одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица Х^Т·Х особенная, так как содержит линейно зависимые векторы-столбцы, и её определитель равен нулю, т. е. нарушается предпосылка 6 регрессионного анализа. Это приводит к невозможности решения соответствующей системы уравнений и получения оценок регрессионной модели.
   Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица X^Т X в этом случае является неособенной, но ее определитель очень мал.
   В то же время вектор оценок b и его ковариационная матрица Σ_b в соответствии с формулами (7) и (16) пропорциональны обратной матрице (Х^T Х)^-1, а значит, их элементы обратно пропорциональны величине определителя |Х^T Х|. В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии b₀, b₁,..., b_p и оценка их значимости по F - критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F - критерию.
   Оценки становятся очень чувствительными к незначительному изменению результатов наблюдения и объёма выборки. Уравнения регрессии в этом случае не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения.
   Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Тем не менее имеются некоторые эвристические подходы по её выявлению.
   Один из таких подходов заключается в анализе корреляционной матрицы между объясняющими переменными Х₁, Х₂, …, Х_р и выявлении пар переменных, имеющих высокие коэффициенты корреляции (обычно больше 0,8). Если такие переменные существуют, то говорят о мультиколлинеарности между ними.
   Полезно также находить множественные коэффициенты детерминации между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента детерминации (обычно больше 0,6) свидетельствует о мультиколлинеарности.
   Другой подход состоит в исследовании матрицы Х^TХ. Если определитель матрицы Х^TХ, либо ее минимальное собственное значение λ_min близки к нулю (например, одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности. О том же может свидетельствовать и значительное отклонение максимального собственного значения λ_mах матрицы Х^TХ от ее минимального собственного значения λ_min.
   Для устранения или уменьшения мультиколлинеарности используется ряд методов. Самый простой из них (но далеко не всегда возможный) состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из рассмотрения, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.
   Другой метод устранения или уменьшения мультиколлинеарности заключается в переходе от несмещенных оценок, определенных по методу наименьших квадратов, к смещенным оценкам, обладающим, однако, меньшим рассеянием относительно оцениваемого параметра, т. е. меньшим математическим ожиданием квадрата отклонения оценки b_j от параметра β_j или М (b_j - β_j)².
   Оценки, определяемые вектором (7), обладают в соответствии с теоремой Гаусса-Маркова минимальными дисперсиями в классе всех линейных несмещенных оценок, но при наличии мультиколлинеарности эти дисперсии могут оказаться слишком большими, и обращение к соответствующим смещенным оценкам может повысить точность оценивания параметров регрессии. На ( рисунке) показан случай, когда смещенная оценка

, выборочное распределение которой задается плотностью φ (

), "лучше" несмещенной оценки b_j, распределение которой представляет плотность φ (b_j).
Действительно, пусть максимально допустимый по величине доверительный интервал для оцениваемого параметра β_j есть (β_j - Δ, β_j + Δ). Тогда доверительная вероятность, или надежность оценки, определяемая площадью под кривой распределения на интервале (β_j - Δ, β_j + Δ), как нетрудно видеть из ( рисунка), будет в данном случае больше для оценки

по сравнению с b_j (на рисунке эти площади заштрихованы). Соответстенно средний квадрат отклонения оценки от оцениваемого параметра будет меньше для смещенной оценки, т. е. M(

- β_j)² < M(b_j - β_j)². При использовании "ридж-регрессии" (или "гребневой регрессии") вместо несмещенных оценок (7) рассматривают смещенные оценки, задаваемые вектором

, где τ - некоторое положительное число, называемое "гребнем" или "хребтом", E_p+1 - единичная матрица (р + 1)-го порядка. Добавление τ к диагональным элементам матрицы X^TX делает оценки параметров модели смещенными, но при этом увеличивается определитель матрицы системы нормальных уравнений (6) - вместо ( Х^TХ ) он будет равен | Х^TХ + τ Е _{р + 1}|.
   Таким образом, становится возможным исключение мультиколлинеарности в случае, когда определитель | Х^TХ | близок к нулю.
   Для устранения мультиколлинеарности может быть использован переход от исходных объясняющих переменных Х₁, Х₂,..., Х_n, связанных между собой достаточно тесной корреляционной зависимостью, к новым переменным, представляющим линейные комбинации исходных. При этом новые переменные должны быть слабокоррелированными либо вообще некоррелированными. В качестве таких переменных берут, например, так называемые главные компоненты вектора исходных объясняющих переменных, изучаемые в компонентном анализе, и рассматривают регрессию на главных компонентах, в которой последние выступают в качестве обобщенных объясняющих переменных, подлежащих в дальнейшем содержательной (экономической) интерпретации.
   Ортогональность главных компонент предотвращает проявление эффекта мультиколлинеарности. Кроме того, применяемый метод позволяет ограничиться малым числом главных компонент при сравнительно большом количестве исходных объясняющих переменных.

Отбор наиболее существенных объясняющих переменных в регрессионных моделях

Одним из возможных методов устранения или уменьшения мультиколлинеарности является использование пошаговых процедур отбора информативных переменных. Например, на первом шаге рассматривается лишь одна объясняющая переменная, имеющая с зависимой переменной Y наибольший коэффициент детерминации. На втором шаге включается в регрессию новая объясняющая переменная, которая вместе с первоначально отобранной образует пару объясняющих переменных, имеющих с Y наиболее высокий (скорректированный) коэффициент детерминации. На третьем шаге вводится в регрессию ещё одна объясняющая переменная, которая вместе с двумя первоначально отобранными образуют тройку объясняющих переменных, имеющую с Y наибольший (скорректированный) коэффициент детерминации, и т.д.
Процедура введения новых переменных продолжается до тех пор, пока будет увеличиваться минимальное значение соответствующего (скорректированного) коэффициента детерминации

Пример

Имеются следующие данные о потреблении некоторого продукта Y (усл. ед.) в зависимости от уровня урбанизации (доли городского населения) Х₁, относительного образовательного уровня X₂ и относительного заработка Х₃ для девяти географических районов:

i (номер района)	x_i1	x_i2	x_i3	y_i
1	42,2	11,2	31,9	167,1
2	48,6	10,6	13,2	174,4
3	42,6	10,6	28,7	160,8
4	39,0	10,4	26,1	162,0
5	34,7	9,3	30,1	140,8
6	44,5	10,8	8,5	174,6
7	39,1	10,7	24,3	163,7
8	40,1	10,0	18,6	174,5
9	45,9	12,0	20,4	185,7

   В случае обнаружения мультиколлинеарности принять меры по её устранению (уменьшению), используя пошаговую процедуру отбора наиболее информативных переменных.
   Решение. Пусть Y – вектор - столбец, компоненты которого являются зависимыми переменными (назовём этот вектор зависимым вектором), Х₁, Х₂, Х₃ — векторы - столбцы, координаты которых являются соответствующими объясняющими переменными, Е — вектор – столбец, координаты которого являются равными единице.
   Линейная комбинация векторов Х₁, Х₂, Х₃, Е является вектором

. (1) По формуле (7) найдём вектор оценок параметров регрессионной модели b^T = (60,014; 0,240; 10,718; - 0,751 ).
Найдём выборочную остаточную дисперсию s²

и s = 6,29.
Обратная матрица (X^TX)^-1 имеет вид

По формуле

вычислим средние квадратические отклонения коэффициентов регрессии s_b₀ = 36,191; s_b₁ = 1,012; s_b₂ = 200,897; s_b₃ = 446,032.
Выборочное уравнение множественной регрессии имеет вид

(2) Сравнивая значения t – статистики (по абсолютной величине) каждого коэффициента регрессии по формуле

, т. е. t_b₀ = 1,658; t_b₁ = 0,237; t_b₂ = 0,053; t_b₃ = -0,002 с критическим значением t_{0,05; 5} = 2,571 определённым по таблице распределению Стьюдента на уровне значимости α = 0,05 при числе степеней свободы k = n – p – 1 = 9 - 3 - 1 = 5, видим, что незначимымы являются все коэффициенты регрессии. Условием значимости коэффициентов уравнения регрессии является условие

. Вычислим множественный коэффициент детерминации потребления продукта Y по совокупности факторов Х₁–Х₃ по формуле

В данном примере коэффициент детерминации равен

. Коэффициент детерминации R² = 0,845 свидетельствует о том, что изменение исследуемой зависимой переменной Y — потребления продукта на 84,5% объясняется изменчивостью включённых в модель объясняющих переменных Х₁ — уровня урбанизации, Х₂ – относительного образовательного уровня, Х₃– относительного заработка.

Значимость уравнения регрессии

Фактическое значение статистики

больше табличного F_{0,05; 3; 5} = 5,41 то в соответствии с условием (2), то уравнение регрессии значимо в целом по F – критерию на уровне α = 0,05.

Выборочные ковариации переменных

cov(x₁,x₂) = 1,894; cov(x₁,x₃) = -18,129;
cov(x₂,x₃) = - 0,907; cov(x₁,y) = 37,637; cov(x₂,y) = 6,442; cov(x₃,y) = -56,028. Стандартные отклонения s_x₁ = 3,938; s_x₂ = 0,704; s_x₃ = 7,475; s_y = 11,922.

Выборочные коэффициенты корреляции

Матрица парных коэффициентов корреляции

Чем ближе определитель матрицы парных коэффициентов к нулю, чем сильнее мультиколлинеарность и ненадёжность результатов множественной регрессии. В рассматриваемом примере det q₄ = 0,042.
Знаком * отмечены коэффициенты корреляции, значимые по t - критерию (3.46) на 5%-ном уровне (см. ниже).

Значимость коэффициентов корреляции

Коэффициент корреляции r значим на уровне α, если

, где t_{α; n - 2} — табличное значение t — критерия Стьюдента, определённое на уровне значимости α при числе степеней свободы n – 2. В данном случае t_{α; n - 2} = t_{0,05; 7} = 2,365.
Вычислим значения статистики

, В корреляционной матрице звездочкой отмечены коэффициенты корреляции значимые по t – критерию на 5% уровне.
Анализируя матрицу парных коэффициентов корреляции можно отметить более тесную связь между переменными Y и X₁, чем между переменными Y и X₂, Y и X₃. Между переменными X₁ и X₂, X₁ и X₃ связь сильная, а X₂ и X₃ связь практически отсутствует, поэтому между объясняющими переменными есть мультиколлинеарность.
Для устранения мультиколлинеарности применим процедуру пошагового отбора наиболее информативных переменных.

1-й шаг. Из объясняющих переменных Х₁ – Х₃ выделяется переменная Х₁, имеющая с зависимой переменной Y наибольший коэффициент детерминации R²_{y x₁} = 0,643 (равный для парной модели квадрату коэффициента корреляции r_yx1 = 0,802²). С учетом поправки на несмещенность по формуле (3) скорректированный коэффициент детерминации .
2-й шаг. Среди всевозможных пар объясняющих переменных X₁, X_j =2,3 выбирается пара, имеющая с зависимой переменной Y наиболее высокий коэффициент детерминации. Для этого придёться провести множественный регрессионный анализ для различных пар (X₁, X₂), (X₁, X₃).
Для пары (X₁, X₂) уравнением регрессии и средние квадратические отклонения коэффициентов регрессии будет . Коэффициент детерминации для этой модели будет и с учетом поправки . Для пары (X₁, X₃) уравнением регрессии и средние квадратические отклонения коэффициентов регрессии будет . Коэффициент детерминации для этой модели будет и с учетом поправки .

Среди всевозможных двоек объясняющих переменных (X₁, X_j), j = 2,3, наиболее информативной оказалась двойка (Х₁, Х₃), имеющая максимальный коэффициент детерминации

и соответственно скорректированный коэффициент

.
Найдём расчетные значения t - статистики

Сравнивая эти расчетные значения с табличным t - статистики t_{0,05; 6} = 2,447, видим, что ни один коэффициент уравнения регрессии на 5% уровне не является значимымю

Вопросы для самопроверки

Что означает мультиколлинеарность между объясняющими факторами?
Как установить наличие мультиколлинеарности?
Как установить значимость уравнения регрессии?
Как установить значимость коэффициентов корреляции?
Какой информативностью обладают коэффициенты элластичности?

ЛЕКЦИЯ 8