ЛЕКЦИЯ 3

  1. Основные положения регрессионного анализа.
  2. Теорема Гаусса-Маркова.
  3. Метод максимального правдоподобия.
  4. Выборочный коэффициент корреляции.
  5. Свойства выборочного коэффициента корреляции.
  6. Коэффициент детерминации.
  7. Коэффициент эластичности.
  8. Пример.
  9. Вопросы для самопроверки.

Основные положения регрессионного анализа

   Рассматриваемая в регрессионном анализе зависимость Y от X может быть представлена в виде некоторого модельного уравнения регрессии.
   В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения переменной Y будут в большей или меньшей мере отклоняться от функции регрессии φ (х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде:
Y = φ (X) + ε,
где ε - случайная переменная (случайный член), характеризующая отклонение от функции регрессии. Эту переменную будем называть возмущающей или просто возмущением (либо ошибкой). Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция φ (X) с точностью до случайного возмущения ε.
   Рассмотрим линейный регрессионный анализ, для которого функции φ (X) линейна относительно оцениваемых параметров:
Mx(Y) = β0 + β1 x.                     (3.1)
   Предположим, что для оценки параметров линейной функции регрессии (3.1) взята выборка, содержащая n пар значений переменных (хi, уi), где i = 1, 2,..., n. В этом случае линейная парная регрессионная модель имеет вид:
yi = β0 + β1 хi + εi,                     (3.2)
   Основные предпосылки регрессионного анализа.
  1. В модели (3.2) возмущение ε - (или зависимая переменная уi) есть величина случайная, а объясняющая переменная хi - величина неслучайная.
  2. Математическое ожидание возмущения ε - равно нулю:
    М ( εi ) = 0,                     (3.3)
    или математическое ожидание зависимой переменной уi - равно линейной функции регрессии:
    М( уi ) = β0 + β1 хi.
  3. Дисперсия возмущения ε (или зависимой переменной уi) постоянна для любого i
    D( εi ) = σ 2                     (3.4)
    ( или D( yi ) = σ 2 ) - условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной).
  4. Возмущения εi и εj (или переменные yi и yj) не коррелированы:
    М(εi, εj) = 0 ( ij ).                     (3.5)
  5. Возмущение εi ( или зависимая переменная уi) есть нормально распределенная случайная величина.
   В этом случае модель (3.2) называется классической нормальной линейной регрессионной моделью.
    Для получения уравнения регрессии достаточно предпосылок 1 - 4. Требование выполнения предпосылки 5 необходимо для оценки точности уравнения регрессии и его параметров.
   Оценкой модели (3.2) по выборке является уравнение регрессии ŷ = a + b x. Параметры этого уравнения a и b определяются на основе метода наименьших квадратов.
   Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3.2) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии σ 2. Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия
,                     (3.6)
где ŷi - групповая средняя, найденная по уравнению регрессии; еi = ŷi - yi - выборочная оценка возмущения εi или остаток регрессии.
 В математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от средней делят не на число наблюдений n, а на число степеней свободы n - m, равное разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их изменения, т. е. число m уравнений, связывающих эти наблюдения. Поэтому в знаменателе выражения (3.6) стоит число степеней свободы n - 2, так как две степени свободы теряются при определении двух параметров прямой из системы нормальных уравнений (3.5).

Теорема Гаусса-Маркова

   Если регрессионная модель (3.2) удовлетворяет предпосылкам 1 - 4, то оценки a, b имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
   Таким образом, оценки a и b в определенном смысле являются наиболее эффективными линейными оценками параметров βо и β1.
   До сих пор мы использовали оценки параметров, полученные методом наименьших квадратов. Рассмотрим еще один важный метод получения оценок, широко используемый в эконометрике, - метод максимального правдоподобия.

Метод максимального правдоподобия

   Для его применения должен быть известен вид закона распределения вероятностей имеющихся выборочных данных.
   Полагая выполнение предпосылки 5 регрессионного анализа, т. е. нормальную классическую регрессионную модель (3.2), будем рассматривать значения yi как независимые нормально распределенные случайные величины с математическим ожиданием M( yi ) = βo + β1 xi, являющимся функцией от xi, и постоянной дисперсией σ 2.
   Следовательно, плотность нормально распределенной случайной величины yi
   Функция правдоподобия, выражающая плотность вероятности совместного появления результатов выборки, имеет вид
.
   Согласно методу максимального правдоподобия в качестве оценок параметров βо, β1 и σ 2 принимаются такие значения , которые максимизируют функцию правдоподобия L.
   Очевидно, что при заданных значениях х1, x2,..., xn объясняющей переменной X и постоянной дисперсии σ 2 функция правдоподобия L достигает максимума, когда показатель степени при е будет минимальным по абсолютной величине, т. е. при условии минимума функции
,
что совпадает с условием нахождения оценок a и b методом наименьших квадратов. Следовательно, оценки a и b параметров βо, β1 совпадают с оценками метода максимального правдоподобия .
   Для нахождения оценки максимального правдоподобия параметра σ 2, максимизирующей функцию L, качественных соображений уже недостаточно, и необходимо прибегнуть к методам дифференциального исчисления. Приравняв частную производную (соответствующие выкладки предлагаем провести читателю самостоятельно), получим
,                     (3.7)
где параметры βо и β1 заменены их оценками a и b. Сравнивая с полученной ранее несмещенной оценкой s2 (3.6), видим, что оценка (3.7) метода максимального правдоподобия параметра σ 2 является смещенной.
   В соответствии со свойствами оценок максимального правдоподобия оценки (a, b) и (а значит, и s2) являются состоятельными оценками. Можно показать, что при выполнении предпосылки 5 о нормальном законе распределения возмущения ε i (i = 1,..., n) эти оценки являются независимыми.

Выборочный коэффициент корреляции

 Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида .
 На первый взгляд, подходящим измерителем тесноты связи Y от X является коэффициент регрессии b ибо, как уже было отмечено, он показывает, на сколько единиц в среднем изменяется Y, когда X увеличивается на одну единицу. Однако b зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если мощность пласта X выразить не в километрах, а в метрах.
 Для "исправления" b как показателя тесноты связи нужная такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. В качестве такой системы единиц используется её среднее квадратическое отклонение s.
 Представим уравнение линейной регрессии  в виде
.
В этой системе величина
показывает, на сколько величин sy изменится в среднем Y, когда Х увеличится на одно sx.
   Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
   Две корреляционные зависимости переменной Y от X приведены на рисунках а) (смотри рисунок.) и б) (смотри рисунок.) Очевидно, что в случае (а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае (б), так как точки корреляционного поля (а) дальше отстоят от линии регрессии, чем точки поля (б).
   Если r > 0 ( b > 0), то корреляционная зависимость между переменными называется прямой, если r < 0 ( b < 0) — обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.
   Коэффициент корреляции можно представить в виде
.                        (3.8)

Свойства выборочного коэффициента корреляции

   Выборочный коэффициент корреляции r (при достаточно большом объеме выборки n) так же, как и коэффициент корреляции двух случайных величин, обладает следующими свойствами.
  1. Коэффициент корреляции принимает значения на отрезке [-1; 1]. Чем ближе | r | к единице, тем теснее связь.
  2. При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой линии.
  3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох.
   Следует отметить, что мы ввели выборочный коэффициент корреляции r исходя из оценки близости точек корреляционного поля к прямой регрессии Y по X. Однако r является непосредственно оценкой генерального коэффициента корреляции ρ между X и Y лишь в случае двумерного нормального закона распределения случайных величин X и Y. В других случаях выборочный коэффициент корреляции не следует рассматривать как строгую меру взаимосвязи переменных.

Коэффициент детерминации

   Пусть вектор ОР (смотри рисунок.) является проекцией вектора Y на вектор S. В этом случае
и тогда . По теореме о трёх перпендикулярах проекция вектора  на вектор S совпадает с вектором ОР. Стороны треугольника М NP образованы векторами . По теореме Пифагора имеем
| PM |2 = | PN |2 + | MN |2
и
   Величину R2, равную квадрату косинуса угла между векторами PN и PM, назовём коэффициентом детерминации.
   Введём обозначения
 — сумма квадратов отклонений зависимой переменной от средней,
 — сумма квадратов отклонений переменной обусловленной регрессией от средней,
 — сумма квадратов отклонений зависимой переменной от переменной обусловленной регрессией.
   Между этими величинами имеют место соотношения
.
Все полученные выводы и формулы имеют место и для многомерного случая, однако в этом случае выводы теряют свою наглядность.
   Докажем справедливость формулы Q = QR + Qe в этом случае.
   Так как
Третья группа слагаемых равна нулю:
Что и требовалось доказать.
 Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.
 Так как 0 ≤ QR ≤ Q, то 0 ≤ R2 ≤ 1.
   Чем ближе R2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2 = 1, то эмпирические точки (хi, уi) лежат на линии регрессии и между переменными Y и X существует линейная функциональная зависимость. Если R2 = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс.
   В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, т. е. R2 = r2.
   Действительно,

Коэффициент эластичности

 Для анализа регрессионной модели используется коэффициент эластичности.
.
Эта величина показывает изменение величины Y при изменении величины X (фактора) на 1%.

Пример

   Найдём коэффициент эластичности в рассматриваемом примере
.
Эта величина показывает, что при увеличении длины пробега вагона на 1% стоимость его обслуживания увеличится на 0,34%.
 Для оценки тесноты связи с случайных величин с указанным корреляционным законом найдём коэффициент корреляции по формуле (3.1)
.
   Можно воспользоваться условием: если | r | < 0,3, то связь практически отсутствует; если 0,3 < | r | < 0,5, то связь слабая; если 0,5 < | r | < 0,7, то связь достаточно сильная, если | r | > 0,7, то имеется высокая степень зависимости между признаками. В данном примере коэффициент корреляции равен 0,37, это значит, что связь между величинами Х и Y слабая.
   Далее находим по формулам (таблица 3.1)

Таблица 3.1

nхух2 xyŷeAy2QQrQe
122,823519,84524,4022,3660,6338742,7559725290,200,03690,4018
227,526,8756,25737,0023,9152,88523510,7658718,2417,991,83998,3246
334,5281190,25966,0026,2211,7787516,35268278429,6113,41703,1640
4 26,418,4696,96485,7623,552-5,1523228,00173338,5617,290,9880 26,5464
519,830,4392,04601,9221,3789,02236729,67884924,1661,491,394181,4031
617,920,8320,41372,3220,7520,0484120,232751432,643,093,26430,0023
725,222,4635,04564,4823,157-0,756923,37911501,760,030,35830,5729
820,121,8404,01438,1821,4760,3235171,484024475,240,581,17040,1047
920,718,5428,49382,9521,674-3,1741817,15774342,2516,470,781710,0754
1021,423,5457,96502,9021,9051,595176,787959552,250,890,42712,5446
1119,816,7392,04330,6621,378-4,6776328,00978278,8934,321,394121,8803
1224,520,4 600,25499,8022,926-2,5262712,38369416,164,660,13546,3821
Cумма280,6270,76793,546406,37     
Qe=
161,402
средзнач23,3822,56566,13533,86 
A=
12,25524,43   
дисп19,3515,55     
Q=
186,61  
cov(X,Y)6,375139       
Qr=
25,2071 
b0,329498
Параметры прямой регрессии
 
a14,85358 
r 0,367532  
   Правильность вычисления проверяется по формуле Q = QR + Qe.
   Используя значения найденных величин, найдём коэффициент детерминации
   Вычисления показывают, что в данном примере только 13,5 % стоимости обслуживания вагона определяется его длиной пробега.
   Коэффициент детерминации можно найти и в пакете Excel. Для этого достаточно при построении прямой регрессии указать дополнительно в диалоговом окне ''параметры'' указать ''показать уравнение на диаграмме'' и ''поместить на диаграмму величину достоверности аппроксимации R2'' (смотри рисунок.).
   Как видно, использование пакета Еxcel в статистических расчётах существенно упрощает решение задачи.

Вопросы для самопроверки

  1. Укажите смысл выборочного коэффициента корреляции.
  2. Когда корреляционная зависимость называется прямой, и когда обратной?
  3. Запишите формулу, по которой можно найти выборочный коэффициент корреляции.
  4. Перечислите свойства выборочного коэффициента корреляции.
  5. Дайте определение коэффициента детерминации и укажите его геометрический смысл для трёхмерного случая.
  6. Что можно сказать о векторе погрешностей при правильном выборе параметров регрессии.
  7. Как построить линию регрессии и найти коэффициент детерминации в пакете Excel?