Начала регрессионного анализа

ВВЕРХ

Главная страница раздела 1

Главная страница раздела 2

Задание 1

Задание 2

Литература

Для доступа к меню нажмите правую кнопку мыши

ЛЕКЦИЯ 2

Задачи регрессионного анализа.
Стохастическая связь между случайными величинами.
Корреляционная зависимость.
Метод наименьших квадратов.
Линейная регрессия.
Геометрическая интерпретация регрессии.
Продолжение решения примера.
Вопросы для самопроверки.

Задачи регрессионного анализа

В практике экономических исследований имеющиеся данные не всегда можно считать выборкой из многомерной нормальной совокупности, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т. п. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа.
Методы и модели регрессионного анализа занимают центральное место в математическом аппарате эконометрики. Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимой переменной.

Стохастическая связь между случайными величинами

Пусть данные опыта представлены таблицей:

Х	x₁	x₂	…	x_n
Y	y₁	y₂	…	y_n

   Между множеством значений случайных величин Х и Y может существовать связь двух видов: функциональная и стохастическая.
   В естественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное значение другой (например, скорость свободного падения в вакууме в зависимости от времени и т.д.).
   В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной).
   Возникновение понятия статистической связи обуславливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п. Урожайность зависит от количества внесённых удобрений. Но это количество удобрений однозначно не определяет урожайность, а зависит от многих факторов, таких, как: неоднородность состава удобрений, рельеф участков поля, неравномерность разброса удобрений и многих других факторов.
    Стохастическая связь определяется тем, что меняется закон распределения случайной величины в зависимости от изменения другой случайной величины. Стохастическая связь между двумя случайными величинами появляется тогда, когда имеются общие случайные факторы, влияющие как на одну случайную величину, так и на другую случайную величину. Например, если случайная величина Х является функцией случайных величин Z₁, Z₂,…Z_m, V₁, V₂, … V_k: X = f (Z₁, Z₂ … , Z_m; V₁, V₂ … , V_k), а случайная величина Y представляет собой функцию от случайных величин Z₁, Z₂ … , Z_m; U₁, U₂ … , U_m: Y = φ (Z₁, Z₂ … , Z_m; U₁, U₂ … , U_m), то величины Х и Y связаны стохастически. В отличие от функциональной зависимости для стохастической связи каждому численному значению одной из величин не соответствует строго определённое значение другой. Число этих значений не является постоянным, и сами значения не отражают определённой закономерности.

Корреляционная зависимость

   Если зависимость между двумя переменными такова, что каждому значению одной переменной соответствует определенное условное математическое ожидание (среднее значение) другой, то такая статистическая зависимость называется корреляционной.
   Иначе, корреляционной зависимостью между двумя переменными называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой. Корреляционная зависимость может быть представлена в виде M_x(Y) = φ (x)                     (2.1) или M_y(X) = ψ (y), где модельные функции φ (х) ≠ const, ψ (y)≠const. В регрессионном анализе рассматривается односторонняя зависимость случайной величины Y от одной (или нескольких) неслучайной переменной Х. Такая зависимость возникает тогда, когда при каждом фиксированном значении Х соответствующие значения Y подвержены случайному разбросу за счёт ряда неконтролируемых факторов. Такая зависимость Y от Х (регрессионная зависимость) может быть представлена в виде модельного уравнения (2.1). При этом зависимую переменную Y называют также функцией отклика, объясняемой, выходной, результирующей, эндогенной переменной, результативным признаком, а независимую переменную X - объясняющей, входной, предсказывающей, предикторной, экзогенной переменной, фактором, регрессором, факторным признаком.
   Уравнение (2.1) называется модельным уравнением регрессии (или просто уравнением регрессии), а функция φ (х) - модельной функцией регрессии (или просто функцией регрессии), а ее график - модельной линией регрессии (или просто линией регрессии). Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х: Х = х. Практически такой закон получить не удаётся, так как объёмы выборки пар значений (х_i; y_i) весьма ограничен. В этом случае речь может идти об оценке (приближенном выражении, аппроксимации) по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии:

,                        (2.2) где ŷ - условная (групповая) средняя переменной Y при фиксированном значении переменной Х = х, а₁, а₂, …,а_n — параметры кривой.
   Уравнение (2.2) называется выборочным уравнением регрессии.
   При правильно определенной аппроксимирующей функции φ (х, а₁, а₂, …,а_n) с увеличением объема выборки (n → ∞) она будет сходиться по вероятности к функции регрессии φ(х).

Метод наименьших квадратов

Задача аппроксимации решается следующим образом. В декартовой прямоугольной системе координат наносят точки (x_i, y_i) (смотри рисунок.). По расположению этих точек высказывается предположение о принадлежности искомой функции к определенному классу функций. Очевидно, точки (x_i, y_i) не принадлежат графику функции

, и разности y_i - φ ( x_i, a₁, a₂, … a_n ) = e_i называются погрешностями. Эти погрешности можно рассматривать как координаты вектора ошибок

Согласно методу наименьших квадратов неизвестные параметры а₁, а₂, …,а_n подбираются таким образом, чтобы модуль вектора ошибок

был наименьшим. Величина d называется также суммарной невязкой. Составляя необходимое условие экстремума функции нескольких переменных, получим систему уравнения для нахождения параметров а₁, а₂, …,а_n

(2.2) Решая полученную систему уравнений (2.2) относительно а_j, j = 1, 2, …, n, находим неизвестные параметры и тем самым полностью определяем функцию, которая наилучшим образом аппроксимирует точки (x_i, y_i).

Линейная регрессия

Остановимся подробнее на линейной модели φ (x, a, b) = a + b x. Система уравнений (2.2) примет в этом случае вид

(2.3) После преобразований системы (2.3) получим систему:

(2.4) Разделив обе части уравнений системы (2.4) на n, получим систему в нормальном виде:

(2.5) где соответствующие средние определяются соотношениями:

. Из первого уравнения системы (2.5) находим

. Подставляя а во второе уравнение системы (2.5), найдем

. Подставляя найденные значения для параметров a, b в выражение функции φ (x, a, b) = a + b x, получим окончательно выражение аппроксимирующей функции. Величина b называется выборочным коэффициентом регрессии. Его величина показывает среднее изменение результативного признака с изменением объясняющей переменной Х на единицу. Cov (X, Y) — выборочный корреляционный момент или выборочная ковариация:

Геометрическая интерпретация регрессии

Для наглядности ограничимся случаем n = 3. В этом случае зависимая переменная Y принимает значения у₁, у₂, у₃ – и объясняющая переменная Х принимает значения х₁, х₂, х₃. Определяя некоторую систему координат с осями координат 1, 2, 3, эти значения можно рассматривать как компоненты векторов Y = (у₁, у₂, у₃), Х = (х₁, х₂, х₃). Наряду с этими векторами рассмотрим вектор S = (1, 1, 1) (смотри рисунок.). Из значений

, получаемых из уравнения регрессии ŷ = a + b x , образуем вектор, и в силу уравнения регрессии этот вектор является линейной комбинацией векторов S и X, т. е.

. Поэтому вектор

лежит в плоскости p векторов S и Х.
Задача линейной регрессии заключается в необходимости нахождения таких оценок а и b, при которых вектор

наилучшим образом заменяет вектор Y. Это произойдёт в том случае, если вектор погрешности

имеет минимальную длину, т. е. вектор

в этом случае должен быть перпендикулярен плоскости π, вектор

есть проекция вектора Y на плоскость π. В силу этого имеем е ⊥ Х и е ⊥ S.
Из признака перпендикулярности векторов (вектора перпендикулярны, если их скалярное произведение равно нулю) имеем уже известные уравнения системы (2.3):

Средняя арифметическая относительных погрешностей

называется средней оценкой аппроксимации.

Продолжение решения примера

В таблице 1 приведён расчёт параметров линии регрессии а и b, а также среднюю погрешность аппроксимации. Она в данном примере составляет 12,25%.

Таблица 1

n	х	у	х²	x·y	ŷ	e_i	A
1	22,8	23	519,84	524,40	22,366	0,633874	2,755972
2	27,5	26,8	756,25	737,00	23,915	2,885235	10,7658
3	34,5	28	1190,25	966,00	26,221	1,778751	6,352682
4	26,4	18,4	696,96	485,76	23,552	-5,15232	28,00173
5	19,8	30,4	392,04	601,92	21,378	9,022367	29,67884
6	17,9	20,8	320,41	372,32	20,752	0,048412	0,232751
7	25,2	22,4	635,04	564,48	23,157	-0,75692	3,37911
8	20,1	21,8	404,01	438,18	21,476	0,323517	1,484024
9	20,7	18,5	428,49	382,95	21,674	-3,17418	17,15774
10	21,4	23,5	457,96	502,90	21,905	1,59517	6,787959
11	19,8	16,7	392,04	330,66	21,378	-4,67763	28,00978
12	24,5	20,4	600,25	499,80	22,926	-2,52627	12,38369
средзнач	23,38	22,56	566,13	533,86			12,25
дисп	19,35
cov (X, Y)	6,375139
b	0,329498	Параметры прямой регрессии
a	14,85358	Параметры прямой регрессии

Построить линию регрессии на корреляционном поле в пакете Excel можно следующим образом:

''Кликнуть'' по полю диаграмма.
На рабочем столе выбрать ''Диаграмма'', ''Добавить линию тренда''.
Выбрать тип ''линейная'', выбрать далее ''параметры'' и отметить опцию ''показывать уравнение на диаграмме''. У Вас должна получиться следующая картинка (смотри рисунок.).

Так как b = 0,329498, то при увеличении пробега вагона на 1 тыс. км. стоимость обслуживания вагона увеличивается на 0,329 тыс. руб.

Вопросы для самопроверки

В чём состоит задача регрессионного анализа?
Какая связь между случайными величинами называется стохастической?
Какая связь между случайными величинами называется корреляционной?
Что называется погрешностями в регрессионном анализе?
Проиллюстрируйте на рисунке величины погрешностей.
Что называется вектором погрешностей?
Какой должна быть длина вектора погрешностей при правильном решении задачи регрессионного анализа?
Сформулируйте общую постановку задачи регрессионного анализа.
Что называется ковариацией двух линейных массивов случайных величин?
Приведите геометрическую интерпретацию задачи линейной регрессии.
Что называется средней оценкой аппроксимации?