ЛЕКЦИЯ 3

ВВЕРХ

Главная страница раздела 1

Главная страница раздела 2

Задание 1

Задание 2

Литература

Для доступа к меню нажмите правую кнопку мыши.

ЛЕКЦИЯ 3

Основные положения регрессионного анализа.
Теорема Гаусса-Маркова.
Метод максимального правдоподобия.
Выборочный коэффициент корреляции.
Свойства выборочного коэффициента корреляции.
Коэффициент детерминации.
Коэффициент эластичности.
Пример.
Вопросы для самопроверки.

Основные положения регрессионного анализа

   Рассматриваемая в регрессионном анализе зависимость Y от X может быть представлена в виде некоторого модельного уравнения регрессии.
   В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения переменной Y будут в большей или меньшей мере отклоняться от функции регрессии φ (х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде: Y = φ (X) + ε, где ε - случайная переменная (случайный член), характеризующая отклонение от функции регрессии. Эту переменную будем называть возмущающей или просто возмущением (либо ошибкой). Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция φ (X) с точностью до случайного возмущения ε.
   Рассмотрим линейный регрессионный анализ, для которого функции φ (X) линейна относительно оцениваемых параметров: M_x(Y) = β₀ + β₁ x.                     (3.1)    Предположим, что для оценки параметров линейной функции регрессии (3.1) взята выборка, содержащая n пар значений переменных (х_i, у_i), где i = 1, 2,..., n. В этом случае линейная парная регрессионная модель имеет вид: y_i = β₀ + β₁ х_i + ε_i,                     (3.2)    Основные предпосылки регрессионного анализа.

В модели (3.2) возмущение ε - (или зависимая переменная у_i) есть величина случайная, а объясняющая переменная х_i - величина неслучайная.
Математическое ожидание возмущения ε - равно нулю: М ( ε_i ) = 0, (3.3) или математическое ожидание зависимой переменной у_i - равно линейной функции регрессии: М( у_i ) = β₀ + β₁ х_i.
Дисперсия возмущения ε (или зависимой переменной у_i) постоянна для любого i D( ε_i ) = σ ² (3.4) ( или D( y_i ) = σ ² ) - условие гомоскедастичности или равноизменчивости возмущения (зависимой переменной).
Возмущения ε_i и ε_j (или переменные y_i и y_j) не коррелированы: М(ε_i, ε_j) = 0 ( i ≠ j ). (3.5)
Возмущение ε_i ( или зависимая переменная у_i) есть нормально распределенная случайная величина.

   В этом случае модель (3.2) называется классической нормальной линейной регрессионной моделью.
    Для получения уравнения регрессии достаточно предпосылок 1 - 4. Требование выполнения предпосылки 5 необходимо для оценки точности уравнения регрессии и его параметров.
   Оценкой модели (3.2) по выборке является уравнение регрессии ŷ = a + b x. Параметры этого уравнения a и b определяются на основе метода наименьших квадратов.
   Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3.2) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии σ ². Несмещенной оценкой этой дисперсии является выборочная остаточная дисперсия

, (3.6) где ŷ_i - групповая средняя, найденная по уравнению регрессии; е_i = ŷ_i - y_i - выборочная оценка возмущения ε_i или остаток регрессии.
В математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от средней делят не на число наблюдений n, а на число степеней свободы n - m, равное разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их изменения, т. е. число m уравнений, связывающих эти наблюдения. Поэтому в знаменателе выражения (3.6) стоит число степеней свободы n - 2, так как две степени свободы теряются при определении двух параметров прямой из системы нормальных уравнений (3.5).

Теорема Гаусса-Маркова

   Если регрессионная модель (3.2) удовлетворяет предпосылкам 1 - 4, то оценки a, b имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
   Таким образом, оценки a и b в определенном смысле являются наиболее эффективными линейными оценками параметров β_о и β₁.
   До сих пор мы использовали оценки параметров, полученные методом наименьших квадратов. Рассмотрим еще один важный метод получения оценок, широко используемый в эконометрике, - метод максимального правдоподобия.

Метод максимального правдоподобия

   Для его применения должен быть известен вид закона распределения вероятностей имеющихся выборочных данных.
   Полагая выполнение предпосылки 5 регрессионного анализа, т. е. нормальную классическую регрессионную модель (3.2), будем рассматривать значения y_i как независимые нормально распределенные случайные величины с математическим ожиданием M( y_i ) = β_o + β₁ x_i, являющимся функцией от x_i, и постоянной дисперсией σ ².
   Следовательно, плотность нормально распределенной случайной величины y_i

Функция правдоподобия, выражающая плотность вероятности совместного появления результатов выборки, имеет вид

. Согласно методу максимального правдоподобия в качестве оценок параметров β_о, β₁ и σ ² принимаются такие значения

, которые максимизируют функцию правдоподобия L.
Очевидно, что при заданных значениях х₁, x₂,..., x_n объясняющей переменной X и постоянной дисперсии σ ² функция правдоподобия L достигает максимума, когда показатель степени при е будет минимальным по абсолютной величине, т. е. при условии минимума функции

, что совпадает с условием нахождения оценок a и b методом наименьших квадратов. Следовательно, оценки a и b параметров β_о, β₁ совпадают с оценками метода максимального правдоподобия

.
Для нахождения оценки

максимального правдоподобия параметра σ ², максимизирующей функцию L, качественных соображений уже недостаточно, и необходимо прибегнуть к методам дифференциального исчисления. Приравняв частную производную

(соответствующие выкладки предлагаем провести читателю самостоятельно), получим

, (3.7) где параметры β_о и β₁ заменены их оценками a и b. Сравнивая с полученной ранее несмещенной оценкой s² (3.6), видим, что оценка

(3.7) метода максимального правдоподобия параметра σ ² является смещенной.
В соответствии со свойствами оценок максимального правдоподобия оценки (a, b) и

(а значит, и s²) являются состоятельными оценками. Можно показать, что при выполнении предпосылки 5 о нормальном законе распределения возмущения ε _i (i = 1,..., n) эти оценки являются независимыми.

Выборочный коэффициент корреляции

Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида

.
На первый взгляд, подходящим измерителем тесноты связи Y от X является коэффициент регрессии b ибо, как уже было отмечено, он показывает, на сколько единиц в среднем изменяется Y, когда X увеличивается на одну единицу. Однако b зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если мощность пласта X выразить не в километрах, а в метрах.
Для "исправления" b как показателя тесноты связи нужная такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. В качестве такой системы единиц используется её среднее квадратическое отклонение s.
Представим уравнение линейной регрессии

в виде

. В этой системе величина

показывает, на сколько величин s_y изменится в среднем Y, когда Х увеличится на одно s_x.
   Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
   Две корреляционные зависимости переменной Y от X приведены на рисунках а) (смотри рисунок.) и б) (смотри рисунок.) Очевидно, что в случае (а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае (б), так как точки корреляционного поля (а) дальше отстоят от линии регрессии, чем точки поля (б).
   Если r > 0 ( b > 0), то корреляционная зависимость между переменными называется прямой, если r < 0 ( b < 0) — обратной. При прямой (обратной) связи увеличение одной из переменных ведет к увеличению (уменьшению) условной (групповой) средней другой.
   Коэффициент корреляции можно представить в виде

. (3.8)

Свойства выборочного коэффициента корреляции

Выборочный коэффициент корреляции r (при достаточно большом объеме выборки n) так же, как и коэффициент корреляции двух случайных величин, обладает следующими свойствами.

Коэффициент корреляции принимает значения на отрезке [-1; 1]. Чем ближе | r | к единице, тем теснее связь.
При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой линии.
При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох.

Следует отметить, что мы ввели выборочный коэффициент корреляции r исходя из оценки близости точек корреляционного поля к прямой регрессии Y по X. Однако r является непосредственно оценкой генерального коэффициента корреляции ρ между X и Y лишь в случае двумерного нормального закона распределения случайных величин X и Y. В других случаях выборочный коэффициент корреляции не следует рассматривать как строгую меру взаимосвязи переменных.

Коэффициент детерминации

Пусть вектор ОР (смотри рисунок.) является проекцией вектора Y на вектор S. В этом случае

и тогда

. По теореме о трёх перпендикулярах проекция вектора

на вектор S совпадает с вектором ОР. Стороны треугольника М NP образованы векторами

. По теореме Пифагора имеем | PM |² = | PN |² + | MN |² и

Величину R², равную квадрату косинуса угла между векторами PN и PM, назовём коэффициентом детерминации.
Введём обозначения

— сумма квадратов отклонений зависимой переменной от средней,

— сумма квадратов отклонений переменной обусловленной регрессией от средней,

— сумма квадратов отклонений зависимой переменной от переменной обусловленной регрессией.
Между этими величинами имеют место соотношения

. Все полученные выводы и формулы имеют место и для многомерного случая, однако в этом случае выводы теряют свою наглядность.
Докажем справедливость формулы Q = Q_R + Q_e в этом случае.
Так как

Третья группа слагаемых равна нулю:

Что и требовалось доказать.
Величина R² показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.
Так как 0 ≤ Q_R ≤ Q, то 0 ≤ R² ≤ 1.
   Чем ближе R² к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R² = 1, то эмпирические точки (х_i, у_i) лежат на линии регрессии и между переменными Y и X существует линейная функциональная зависимость. Если R² = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс.
   В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, т. е. R² = r².
   Действительно,

Коэффициент эластичности

Для анализа регрессионной модели используется коэффициент эластичности.

. Эта величина показывает изменение величины Y при изменении величины X (фактора) на 1%.

Пример

Найдём коэффициент эластичности в рассматриваемом примере

. Эта величина показывает, что при увеличении длины пробега вагона на 1% стоимость его обслуживания увеличится на 0,34%.
Для оценки тесноты связи с случайных величин с указанным корреляционным законом найдём коэффициент корреляции по формуле (3.1)

. Можно воспользоваться условием: если | r | < 0,3, то связь практически отсутствует; если 0,3 < | r | < 0,5, то связь слабая; если 0,5 < | r | < 0,7, то связь достаточно сильная, если | r | > 0,7, то имеется высокая степень зависимости между признаками. В данном примере коэффициент корреляции равен 0,37, это значит, что связь между величинами Х и Y слабая.
Далее находим по формулам (таблица 3.1)

Таблица 3.1

n	х	у	х²	xy	ŷ	e	A	y²	Q	Q_r	Q_e
1	22,8	23	519,84	524,40	22,366	0,633874	2,755972	529	0,20	0,0369	0,4018
2	27,5	26,8	756,25	737,00	23,915	2,885235	10,7658	718,24	17,99	1,8399	8,3246
3	34,5	28	1190,25	966,00	26,221	1,778751	6,352682	784	29,61	13,4170	3,1640
4	26,4	18,4	696,96	485,76	23,552	-5,15232	28,00173	338,56	17,29	0,9880	26,5464
5	19,8	30,4	392,04	601,92	21,378	9,022367	29,67884	924,16	61,49	1,3941	81,4031
6	17,9	20,8	320,41	372,32	20,752	0,048412	0,232751	432,64	3,09	3,2643	0,0023
7	25,2	22,4	635,04	564,48	23,157	-0,75692	3,37911	501,76	0,03	0,3583	0,5729
8	20,1	21,8	404,01	438,18	21,476	0,323517	1,484024	475,24	0,58	1,1704	0,1047
9	20,7	18,5	428,49	382,95	21,674	-3,17418	17,15774	342,25	16,47	0,7817	10,0754
10	21,4	23,5	457,96	502,90	21,905	1,59517	6,787959	552,25	0,89	0,4271	2,5446
11	19,8	16,7	392,04	330,66	21,378	-4,67763	28,00978	278,89	34,32	1,3941	21,8803
12	24,5	20,4	600,25	499,80	22,926	-2,52627	12,38369	416,16	4,66	0,1354	6,3821
Cумма	280,6	270,7	6793,54	6406,37						Qe=	161,402
средзнач	23,38	22,56	566,13	533,86		A=	12,25	524,43
дисп	19,35	15,55						Q=	186,61
cov(X,Y)	6,375139								Q_r=	25,2071
b	0,329498	Параметры прямой регрессии
a	14,85358	Параметры прямой регрессии
r	0,367532

Правильность вычисления проверяется по формуле Q = Q_R + Q_e.
Используя значения найденных величин, найдём коэффициент детерминации

   Вычисления показывают, что в данном примере только 13,5 % стоимости обслуживания вагона определяется его длиной пробега.
   Коэффициент детерминации можно найти и в пакете Excel. Для этого достаточно при построении прямой регрессии указать дополнительно в диалоговом окне ''параметры'' указать ''показать уравнение на диаграмме'' и ''поместить на диаграмму величину достоверности аппроксимации R²'' (смотри рисунок.).
   Как видно, использование пакета Еxcel в статистических расчётах существенно упрощает решение задачи.

Вопросы для самопроверки

Укажите смысл выборочного коэффициента корреляции.
Когда корреляционная зависимость называется прямой, и когда обратной?
Запишите формулу, по которой можно найти выборочный коэффициент корреляции.
Перечислите свойства выборочного коэффициента корреляции.
Дайте определение коэффициента детерминации и укажите его геометрический смысл для трёхмерного случая.
Что можно сказать о векторе погрешностей при правильном выборе параметров регрессии.
Как построить линию регрессии и найти коэффициент детерминации в пакете Excel?