ЛЕКЦИЯ 9

  1. Линейные регрессионные модели с переменной структурой.
  2. Пример 1.
  3. Критерий Г. Чоу.
  4. Пример 2.
  5. Нелинейные модели регрессии.
  6. Частная корреляция.
  7. Значимость коэффициентов корреляции.
  8. Вопросы для самопроверки.

Линейные регрессионные модели с переменной структурой

   На практике часто возникает необходимость исследования влияния качественных признаков, имеющих два или несколько уровней. Например, образование (начальное, среднее, высшее), пол (мужской, женский), фактор сезонности (зима, весна, лето, осень).
   Качественные признаки могут существенно влиять на структуру линейных связей между переменными и приводить к скачкообразному изменению параметров регрессионной модели. В этом случае говорят об исследовании регрессионных моделей с переменной структурой или построении регрессионных моделей по неоднородным данным.
   Качественные признаки могут существенно влиять на структуру линейных связей между переменными и приводить к скачкообразному изменению параметров регрессионной модели, в этом случае говорят об исследовании регрессионных моделей с переменной структурой или построении регрессионных моделей по неоднородным данным.
   Например, нам надо изучить зависимость размера заработной платы Y работников не только от количественных факторов Х1, Х2,..., Хn, но и от качественного признака Z1 (например, фактора "пол работника").
   В принципе можно было получить оценки регрессионной модели
yi = β0 + β1 xi1 + ... + βp xip + εi, i = l,..., n                         (1)
для каждого уровня качественного признака (т. е. выборочное уравнение регрессии отдельно для работников-мужчин и отдельно - для женщин), а затем изучать различия между ними (смотри).
   Но есть и другой подход, позволяющий оценивать влияние значений количественных переменных и уровней качественных признаков с помощью одного уравнения регрессии. Этот подход связан с введением так называемых фиктивных переменных.
   В качестве фиктивных переменных обычно используются дихотомические (бинарные, булевы) переменные, которые принимают всего два значения: "0" или "1" (например, значение такой переменной Z1 по фактору "пол": Z1 = О для работников-женщин и Z1 = 1 - для мужчин).
   В этом случае первоначальная регрессионная модель (1) заработной платы изменится и примет вид:
yi = β0 + β1 xi1 + ... + βp xip + α1 zi1 + εi, i = l,..., n                         (2)
где
   Таким образом, принимая модель (2), мы считаем, что средняя заработная плата у мужчин на α1·1= α1 выше, чем у женщин, при неизменных значениях других параметров модели. А проверяя гипотезу Н0: α1 = 0, мы можем установить сушественность влияния фактора "пол" на размер заработной платы работника.
   Следует отметить, что в принципе качественное различие можно формализовать с помощью любой переменной, принимающей два разных значения, не обязательно "0" или "1". Однако в эконометрической практике почти всегда используются фиктивные переменные типа "0 - 1", так как при этом интерпретация полученных результатов выглядит наиболее просто. Так, если бы в модели (2) в качестве фиктивной выбрали переменяю Z1, принимающую значения zi1 = 4 (для работников-мужчин) и zi2 = l (для женщин), то коэффициент регрессии α1 при этой переменной равнялся бы 1/(4-1), т. е. одной трети среднего изменения заработной платы у мужчин.
   Если рассматриваемый качественный признак имеет несколько (k) уровней (градаций), то в принципе можно было ввести в регрессионную модель дискретную переменную, принимающую такое же количество значений (например, при исследовании зависимости заработной платы Y от уровня образования Z можно рассматривать k = 3 значения: zzi1 = l при наличии начального образования, zi2 = 2 - среднего и zi3 = 3 при наличии высшего образования). Однако обычно так не поступают из-за трудности содержательной интерпретации соответствующих коэффициентов регрессии, а вводят (k - 1) бинарных переменных.
   В рассматриваемом примере для учета фактора образования можно было в регрессионную модель (2) ввести k - 1 = 3 - 1 = 2 бинарные переменные Z21 и Z22
yi = β0 + β1xi1 + ... + βpx ip + α1zi1 + α2l zi2122 zi22 + εi,                         (3)
где
   Третьей бинарной переменной Z23, очевидно, не требуется: если i - й работник имеет начальное образование, это будет отражено парой значений Zi21 = 0, Zi22 = 0.
   Более того, вводить третью бинарную переменную Z23 (со значениями Zi23 = 1, если i - й работник имеет начальное образование; Zi23 = 0 - в остальных случаях) нельзя, так как при этом для любого i-го работника Zi21 + Zi22 + Zi23 = 1, т. е. при суммировании элементов столбцов общей матрицы плана, соответствующих фиктивным переменным Zi21, Zi22, Zi23, получили бы столбец, состоящий из одних единиц. А так как в матрице плана такой столбец из единиц уже есть, что это первый столбец, соответствующий свободному члену уравнения регрессии), то это означало бы линейную зависимость значений (столбцов) общей матрицы плана X, т. е. нарушило бы преддосылку 6 регрессионного анализа. Таким образом, мы оказались бы в условиях мультиколлинеарности в функциональной форме и как следствие - невозможности получения оценок методом наименьших квадратов.
   Такая ситуация, когда сумма значений нескольких переменных, включенных в регрессию, равна постоянному числу (единице), получила название "ловушки". Чтобы избежать такие ловушки, число вводимых бинарных переменных должно быть на единицу меньше числа уровней качественного признака.
   Рассматриваемые выше регрессионные модели (2) и (3) отражали влияние качественного признака (фиктивных переменных) только на значения переменной Y, т. е. на свободный член уравнения регрессии. В более сложных моделях может быть отражена также зависимость фиктивных переменных на сами параметры при переменных регрессионной модели. Например, при наличии в модели объясняющих переменных - количественной Х1 и фиктивных Z11, Z12, Z21, Z22, из которых Z11, Z12 влияют только на значение коэффициента при Х1, a Z21, Z22 - только на величину свободного члена уравнения, такая регрессионная модель примет вид:
yi = β0 + β1xi1 + β11 (zi11 xi1) + β12 (zi12 xi2) + α21 zi21 + α22 zi22 + εi, i = 1, …, n.                        (4)
   Модели типа (4) используются, например, при исследовании зависимости объема потребления Y некоторого продукта от дохода потребителя X, когда одни качественные признаки (например, сезонности) влияют лишь на количество потребляемого продукта (свободный член уравнения регрессии), а другие (например, уровень доходности домашнего хозяйства) - на параметр β1 при X, интерпретируемый как "склонность к потреблению".

Пример 1

   Исследовать зависимость между результатами письменных вступительных и проверочных экзаменов по математике. Получены данные (Х) о числе решённых на вступительных экзаменах задач (задавалось 10 задач) и проверочных экзаменов (Y) (7 задач), а также распределение этих студентов по фактору «пол».

№ студентаЧисло решенных задачПол студента№ студентаЧисло решенных задачПол студента
ixi yiixiyi
1106муж763жен
264жен874муж
384муж997муж
485жен1063жен
564жен1152муж
677муж1273жен

   Построить линейную регрессионную модель Y по Х с использованием фиктивной переменной по фактору «пол».
   Решение. Рассчитаем уравнение парной регрессии Y по Х
.
   Коэффициент детерминации равен R2 = 0,53, т.е. 53% вариации зависимой переменной Y обусловлено регрессией.
   По F – критерию
имеем F = 9,46 > F0,05; 1; 10 = 4,96, т.е. уравнение регрессии значимо по F – критерию на 5% - ном уровне.
   Однако полученное уравнение не учитывает влияние качественного признака – фактора «пол». Для её учёта введём в регрессионную модель фиктивную (бинарную) переменную Z:
Общая матрицы задачи в этом случае имеют вид
, .
Проводя множественный регрессионный анализ, получим вектор оценок параметров регрессии
bT = (- 1,165; 0,743; 0,466).
Так что уравнение множественной регрессии примет вид:
                  (5)
Коэффициент детерминации R2 = 0,549. Уравнение регрессии значимо по F – критерию на 5% - ном уровне, так как F = 4,48 > F0,05; 2; 9 = 4,26.
   Из (5) следует, что при том же числе решенных задач на вступительных экзаменах Х, юноши на проверочных экзаменах в среднем решают на 0,466 задачи больше. (На рисунке) показаны линии регрессии Y по Х для юношей z = 1 ( у = - 0,699 + 0,743·х) и девушек z = 0 ( у = - 1,165 + 0,743·х)
   Эти уравнения отличаются только свободным членом, а соответствующие линии регрессии параллельны.
   Сравнивая значения t – статистики (по абсолютной величине) каждого коэффициента регрессии по формуле
,
т. е.
tb0 = -0,4834, tb1 = 14,01887, tb2 = 1,151
с критическим значением t0,05; 9 = 2,262 определённым по таблице Пирсона на уровне значимости α = 0,05 при числе степеней свободы k = n – 2 – 1 = 9, видим, что значимым оказался только коэффициент регрессии b1, остальные коэффициенты незначимы, возможно, из-за недостатка объёма выборки.
  Найдём выборочные ковариации переменных
cov (x, y) = 1,556; cov (z, y) = 0,333; cov (z, x) = 0,2917.
Найдём выборочные коэффициенты корреляции
rx,y = 0,728; rx,z = 0,422; ry,z = 0,431.
Составим матрицу парных коэффициентов корреляции
.
Чем ближе определитель матрицы парных коэффициентов к нулю, чем сильнее мультиколлинеарность и ненадёжность результатов множественной регрессии. В рассматриваемом примере det q3 = 0,371.
   Замечание. Если бы в регрессионной модели мы хотедь учесть другие факторы с большим, чем две, числом ki градаций то, как отмечено выше, следовало бы ввести в модель (ki - 1) бинарных переменных. Например, если было бы необходимо изучить влияние на результаты курсового экзамена фактора Z2 - тип учебного заведения, оконченного студентом (школа, техникум, ПТУ), то в регрессионную модель следовало ввести ki - 1 = 3 - 1 = 2 бинарные переменные Z21 и Z22:
yi = β0 + β1 xi1 + α1zi1 + α21zi21 + α22zi22 + εi,
где
   Но при этом, конечно, следовало увеличить объем выборки n, так как надежность статистических выводов существенно зависит от отношения объема выборки n к общему числу всех параметров регрессионной модели: чем больше величина отношения n/(р+1), тем точнее соответствующие оценки, тем надежнее статистические выводы.

Критерий Г. Чоу

   Имеются две выборки объёмами n1 и n2 пар значений зависимой и объясняющих переменных (хi, yi) возможно полученных при разных условиях. Ставится задача об определении однородности выборок в регрессионном смысле. Последнее означает ответ на вопрос– можно ли объединить две выборки в одну и рассматривать единую модель регрессии Y по Х?
   При достаточных объемах выборок можно было, например, построить интервальные оценки параметров регрессии по каждой из выборок и в случае пересечения соответствующих доверительных интервалов сделать вывод о единой модели регрессии. Возможны и другие подходы.
   В случае, если объем хотя бы одной из выборок незначителен, то возможности такого (и аналогичных) подходов резко сужаются из-за невозможности построения сколько-нибудь надежных оценок.
   В критерии (тесте) Г. Чоу эти трудности в существенной степени преодолеваются. По каждой выборке строятся две регрессионные модели:
Согласно критерию Г. Чоу две регрессионные модели можно объединить в одну объёма n = n1 + n2
если на уровне значимости α выполняется неравенство
где
остаточные суммы квадратов соответственно для объединённой, первой и второй выборок; n = n1 + n2.

Пример 2

   Получены данные (Х) о числе решённых на вступительных экзаменах задач (задавалось 10 задач) и проверочных экзаменов (Y) (7 задач). Выборка проведена по n1 = 6 парам для юношей
x1087795
у647472
и по n2 = 6 парам для девушек
x686667
у454333

Рассчитаем уравнения регрессии для первой выборки
ŷ = - 1 + 0,783 x,
для второй выборки
ŷ = - 0,048 + 0,571 x.
По всем n = n1 + n2 = 12 парам наблюдений рассчитаем уравнние регрессии для объединенной выборки
ŷ = 0,8145 x - 1,4364.
Далее получим
.
Следовательно,
влияние фактора «пол» несущественно, и в качестве оценки регрессионной модели Y по Х можно рассматривать уравнение по объединённой выборке.
   Критерий Г. Чоу может быть использован при построении регрессионных моделей при воздействии качественных признаков, когда имеется возможность разделения совокупности наблюдений по степени воздействия этого фактора на отдельные группы и требуется установить возможность использования единой регрессионной модели.
   Оценивание регрессии с использованием фиктивных переменных более информативно в том отношении, что позволяет использовать t-критерий для оценки существенности влияния каждой фиктивной переменной на зависимую переменную.

Нелинейные модели регрессии

   До сих пор мы рассматривали линейные регрессионные модели, в которых переменные имели первую степень (модели, линейные по переменным), а параметры выступали в виде коэффициентов при этих переменных (модели, линейные по параметрам). Однако соотношение между социально - экономическими явлениями и процессами далеко не всегда можно выразить линейными функциями, так как при этом могут возникать неоправданно большие ошибки.
   Так, например, нелинейными оказываются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства - трудом, капиталом и т. п.), функции спроса (зависимость между спросом на товары или услуги и их ценами или доходом) и другие.
   Для оценки параметров нелинейных моделей используются два подхода.
   Первый подход основан на линеаризации модели и заключатся в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными.
   Второй подход обычно применяется в случае, когда подобать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных.
   Для линеаризации модели в рамках первого подхода могут использоваться как модели, не линейные по переменным, так и не линейные по параметрам.
   Если модель нелинейна по переменным, то введением новых переменных ее можно свести к линейной модели, для оценки параметров которой использовать обычный метод наименьших квадратов.
   Так, например, если нам необходимо оценить параметры регрессионной модели
,
то вводя новые переменные , получим линейную модель
уi = β0 + β1 zi1 + β2 zi2 + εi, i = l,..., n,
параметры которой находятся обычным методом наименьших квадратов.
   Следует, однако, отметить и недостаток такой замены переменных, связанный с тем, что вектор оценок b получается не из условия минимизации суммы квадратов отклонений для исходных переменных, а из условия минимизации суммы квадратов отклонений для преобразованных переменных, что не одно и то же. В связи с этим необходимо определенное уточнение полученных оценок.
   Более сложной проблемой является нелинейность модели по параметрам, так как непосредственное применение метода наименьших квадратов для их оценивания невозможно. К числу таких моделей можно отнести, например, мультипликативную (степенную) модель
.                        (6)
Экспоненциальную модель
,                        (7)
и другие.
   В ряде случаев путем подходящих преобразований эти модел удается привести к линейной форме. Так, модели (6) и (7), могут быть приведены к линейным логарифмированием обеи частей уравнений. Тогда, например, модель (6) примет вид:
ln уi =ln β0 + β1 ln xi1 + β2 ln хi2 +1n εi, i = 1,..., n.                        (8)
   К модели (8) уже можно применять обычные методы следования линейной регрессии. Однако следует подчеркнуть, что критерии значимости и интервальные оценки параметров, применяемые для нормальной линейной регрессии, требуют, чтобы нормальный закон распределения в моделях (6), (7) имел логарифм вектора возмущений ε (т. е. ln ε ≈ Nn (0, σ2En), а вовсе не ε. Другими словами вектор возмущений ε должен иметь логарифмически нормальное распределение.
   Заметим попутно, что к модели
,                        (9)
рассматриваемой в качестве альтернативной по отношению к модели (6), изложенные выше методы исследования линейной регрессии уже непригодны, так как модель (9) нельзя привести к линейному виду. В этом случае используются специальные (итеративные) процедуры оценивания параметров.
   В качестве примера использования линеаризирующего преобразования регрессии рассмотрим производственную функцию Кобба-Дугласа
Y = A Kα Lβ,
где Y - объем производства, К - затраты капитала, L - затраты труда.
   Показатели α и β являются коэффициентами частной эластичности объема производства Y соответственно по затратам капитала К и труда L. Это означает, что при увеличении одних только затрат капитала (труда) на 1% объем производства увелится на α% (β%).

Что такое коэффициент частной элластичности


   Учитывая влияние случайных возмущении, присущих каждому экономическому явлению, функцию Кобба-Дугласа (10) мохно представить в виде
Y = A Kα Lβ ε                     (11)
   Полученную мультипликативную (степенную) модель легко свести к линейной путем логарифмирования обеих частей уравнения (11). Тогда для i-го наблюдения получим
ln yi = ln A + α ln Ki + β ln Li + ln ε, i = 1,..., n.                      (12)
   Если в модели (11) α + β = 1 (т. е. модель такова, что при расширении масштаба производства - увеличении затрат капитала К и труда L в некоторое число раз - объем производства возрастает в то же число раз) функцию Кобба-Дугласа представляют в виде
Y = A Kα L1-α ε
или
.                     (13)
   Таким образом, получаем зависимость производительности труда (Y/L) от его капиталовооруженности (K/L). Для оценки параметров модели (13) путем логарифмирования приводим ее к виду (для i-го наблюдения)
ln(Y/L), = 1n A + α ln (K/L), +ln εi, i= 1,..., n.                     (14)
Функция Кобба-Дугласа с учетом технического прогресса имеет вид:
Y = A Kα Lβ eθ tε,                     (15)
где t – время; параметр θ - темп прироста объема производства благодаря техническому прогрессу. Модель (15) приводится к линейному виду аналогично модели (16).

Частная корреляция

   Выше для оценки тесноты связи между переменными был введен выборочный коэффициент линейной корреляции. Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных. В связи с этим часто возникает необходимость исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких переменных.
   Выборочным частичным коэффициентом корреляции между переменными Хi (зависимые переменные) и Хj (объясняющие переменные) при фиксированных значениях остальных (р – 2) (объясняющих) переменных называется выражение
,
где q ii и q jj — алгебраические дополнения элементов r ii и r jj матрицы выборочных коэффициентов корреляции
а r ij определяются по формулам
.
   В частности, в случае трёх переменных выборочные частичные коэффициенты корреляции имеют вид
.                     (17)
   Поясним полученную формулу (17). Предположим, что имеется обычная регрессионная модель хj = β0 + β1 xj + β2 xk + εi и необходимо оценить корреляцию между зависимой переменной Xi и объясняющей переменной Xj - при исключении влияния другой объясняющей переменной Хk. С этой целью найдем уравнения парной регрессии Xi по Хk (xi ' = bo + b1xk) и Xj no Xk (xi ' = b'0 + b'xk), а затем удалим влияние переменной Хk, взяв остатки ехi = хi - х'i, ехj = хj - х'j. Очевидно, что коэффициент корреляции между остатками ехi и ехj будет отражать тесноту частной корреляции между переменными Xi и Xj при исключении влияния переменной Хk. Можно показать, что найденный по формуле
обычный коэффициент корреляции между остатками ехi и ехj равен частному коэффициенту корреляции rij,k, определенному по формуле (17).
   Частный коэффициент корреляции rij,12...р, как и парный коэффициент rij, может принимать значения от -1 до + 1. Кроме того, rij,12...р, вычисленный на основе выборки объема n, имеет такое же распределение, как и rij, вычисленный по n'= n - р + 2 наблюдениям. Поэтому значимость частного коэффициента корреляции rij,12...р оценивают так же, как и обычного коэффициента корреляции r, но при этом полагают n' = n - р + 2.

Значимость коэффициентов корреляции

   Коэффициент корреляции r значим на уровне α, если
,
где t α; n - 2 — табличное значение t — критерия Стьюдента, определённое на уровне значимости α при числе степеней свободы n – 2.

Вопросы для самопроверки

  1. Сформулируйте общую постановку регрессионного анализа с переменной структурой.
  2. В чём состоит критерий Г. Чоу?
  3. Имеются следующие данные о потреблении некоторого продукта Y (усл. ед.) в зависимости от уровня урбанизации (доли городского населения) Х1, относительного образовательного уровня X2 и относительного заработка Х3 для девяти географических районов:
    i- номер
    района
    xi1xi2xi3yi- номер
    района
    xi1xi2xi3y
    142,211,231,9167,1644,510,88,5174,6
    248,610,613,2174,4739,110,724,3163,7
    342,610,628,7160,8840,110,018,6174,5
    439,010,426,1162,0945,912,020,4185,7
    534,79,330,1140,8     
    Используя пошаговую процедуру отбора наиболее информативных объясняющих переменных, определить подходящую регрессионную модель, исключив при этом мультиколлинеарность. Оценить значимость коэффициентов регрессии полученной модели по t-критерию.
  4. . Имеются следующие данные о весе Y (в фунтах) и возрасте X (в неделях) 13 индеек, выращенных в областях А, В, С.
    ixiyiОбласть
    происхождения
    ixiyiОбласть
    происхождения
    1
    2
    3
    4
    5
    6
    7
    28
    20
    32
    22
    29
    27
    28
    12,3
    8,9
    15,1
    10,4
    13,1
    12,4
    13,2
    A
    A
    A
    A
    B
    B
    B
    8
    9
    10
    11
    12
    13
    26
    21
    27
    29
    23
    25
    11,8
    11,5
    14,2
    15,4
    13,1
    13,8
    B
    C
    C
    C
    C
    C
    Есть основание полагать, что на вес индеек оказывает влияние не только их возраст, но и область происхождения. Необходимо:
    • а) найти уравнение парной регрессии Y по X и оценить его значимость;
    • б) введя соответствующие фиктивные переменные, найти общее уравнение множественной регрессии Y по всем объясняющим переменным (включая фиктивные);
    • в) оценить значимость общего уравнения множественной регрессии по F-критерию и значимость его коэффициентов по t-критерию на уровне α = 0,05;
    • г) проследить за изменением скорректированного коэффициента детерминации при переходе от парной к множественной регрессии;
    • д) оценить на уровне α = 0,05 значимость различия между свободными членами уравнений, получаемых из общего уравнения множественной регрессии У для каждой области.