ЛЕКЦИЯ 2

  1. Задачи регрессионного анализа.
  2. Стохастическая связь между случайными величинами.
  3. Корреляционная зависимость.
  4. Метод наименьших квадратов.
  5. Линейная регрессия.
  6. Геометрическая интерпретация регрессии.
  7. Продолжение решения примера.
  8. Вопросы для самопроверки.

Задачи регрессионного анализа

   В практике экономических исследований имеющиеся данные не всегда можно считать выборкой из многомерной нормальной совокупности, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая и т. п. В этих случаях пытаются определить кривую (поверхность), которая дает наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующие методы приближения получили название регрессионного анализа.
   Методы и модели регрессионного анализа занимают центральное место в математическом аппарате эконометрики. Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимой переменной.

Стохастическая связь между случайными величинами

    Пусть данные опыта представлены таблицей:

Х x1 x2 xn
Y y1 y2 yn
   Между множеством значений случайных величин Х и Y может существовать связь двух видов: функциональная и стохастическая.
   В естественных науках часто речь идет о функциональной зависимости (связи), когда каждому значению одной переменной соответствует вполне определенное значение другой (например, скорость свободного падения в вакууме в зависимости от времени и т.д.).
   В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Иначе говоря, каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая зависимость получила название статистической (или стохастической, вероятностной).
   Возникновение понятия статистической связи обуславливается тем, что зависимая переменная подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Примером статистической связи является зависимость урожайности от количества внесенных удобрений, производительности труда на предприятии от его энерговооруженности и т.п. Урожайность зависит от количества внесённых удобрений. Но это количество удобрений однозначно не определяет урожайность, а зависит от многих факторов, таких, как: неоднородность состава удобрений, рельеф участков поля, неравномерность разброса удобрений и многих других факторов.
    Стохастическая связь определяется тем, что меняется закон распределения случайной величины в зависимости от изменения другой случайной величины. Стохастическая связь между двумя случайными величинами появляется тогда, когда имеются общие случайные факторы, влияющие как на одну случайную величину, так и на другую случайную величину. Например, если случайная величина Х является функцией случайных величин Z1, Z2,…Zm, V1, V2, … Vk:
X = f (Z1, Z2 … , Zm; V1, V2 … , Vk),
а случайная величина Y представляет собой функцию от случайных величин Z1, Z2 … , Zm; U1, U2 … , Um:
Y = φ (Z1, Z2 … , Zm; U1, U2 … , Um),
то величины Х и Y связаны стохастически.   В отличие от функциональной зависимости для стохастической связи каждому численному значению одной из величин не соответствует строго определённое значение другой. Число этих значений не является постоянным, и сами значения не отражают определённой закономерности.

Корреляционная зависимость

   Если зависимость между двумя переменными такова, что каждому значению одной переменной соответствует определенное условное математическое ожидание (среднее значение) другой, то такая статистическая зависимость называется корреляционной.
   Иначе, корреляционной зависимостью между двумя переменными называется функциональная зависимость между значениями одной из них и условным математическим ожиданием другой.   Корреляционная зависимость может быть представлена в виде
Mx(Y) = φ (x)                     (2.1)
или
My(X) = ψ (y),
где модельные функции φ (х) ≠ const, ψ (y)≠const.   В регрессионном анализе рассматривается односторонняя зависимость случайной величины Y от одной (или нескольких) неслучайной переменной Х. Такая зависимость возникает тогда, когда при каждом фиксированном значении Х соответствующие значения Y подвержены случайному разбросу за счёт ряда неконтролируемых факторов. Такая зависимость Y от Х (регрессионная зависимость) может быть представлена в виде модельного уравнения (2.1). При этом зависимую переменную Y называют также функцией отклика, объясняемой, выходной, результирующей, эндогенной переменной, результативным признаком, а независимую переменную X - объясняющей, входной, предсказывающей, предикторной, экзогенной переменной, фактором, регрессором, факторным признаком.
   Уравнение (2.1) называется модельным уравнением регрессии (или просто уравнением регрессии), а функция φ (х) - модельной функцией регрессии (или просто функцией регрессии), а ее график - модельной линией регрессии (или просто линией регрессии).   Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х: Х = х. Практически такой закон получить не удаётся, так как объёмы выборки пар значений (хi; yi) весьма ограничен. В этом случае речь может идти об оценке (приближенном выражении, аппроксимации) по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии:
,                        (2.2)
где ŷ - условная (групповая) средняя переменной Y при фиксированном значении переменной Х = х, а1, а2, …,аn — параметры кривой.
   Уравнение (2.2) называется выборочным уравнением регрессии.
   При правильно определенной аппроксимирующей функции φ (х, а1, а2, …,аn) с увеличением объема выборки (n → ∞) она будет сходиться по вероятности к функции регрессии φ(х).

Метод наименьших квадратов

  Задача аппроксимации решается следующим образом. В декартовой прямоугольной системе координат наносят точки (xi, yi) (смотри рисунок.). По расположению этих точек высказывается предположение о принадлежности искомой функции к определенному классу функций. Очевидно, точки (xi, yi) не принадлежат графику функции , и разности
yi - φ ( xi, a1, a2, … an ) = ei
называются погрешностями. Эти погрешности можно рассматривать как координаты вектора ошибок
Согласно методу наименьших квадратов неизвестные параметры а1, а2, …,аn подбираются таким образом, чтобы модуль вектора ошибок
был наименьшим. Величина d называется также суммарной невязкой. Составляя необходимое условие экстремума функции нескольких переменных, получим систему уравнения для нахождения параметров а1, а2, …,аn
                     (2.2)
   Решая полученную систему уравнений (2.2) относительно аj, j = 1, 2, …, n, находим неизвестные параметры и тем самым полностью определяем функцию, которая наилучшим образом аппроксимирует точки (xi, yi).

Линейная регрессия

   Остановимся подробнее на линейной модели
φ (x, a, b) = a + b x.
Система уравнений (2.2) примет в этом случае вид
                     (2.3)
После преобразований системы (2.3) получим систему:
                     (2.4)
Разделив обе части уравнений системы (2.4) на n, получим систему в нормальном виде:
                     (2.5)
где соответствующие средние определяются соотношениями:
, , , .
Из первого уравнения системы (2.5) находим . Подставляя а во второе уравнение системы (2.5), найдем
.
Подставляя найденные значения для параметров a, b в выражение функции φ (x, a, b) = a + b x, получим окончательно выражение аппроксимирующей функции. Величина b называется выборочным коэффициентом регрессии. Его величина показывает среднее изменение результативного признака с изменением объясняющей переменной Х на единицу. Cov (X, Y) — выборочный корреляционный момент или выборочная ковариация:
.

Геометрическая интерпретация регрессии

  Для наглядности ограничимся случаем n = 3. В этом случае зависимая переменная Y принимает значения у1, у2, у3 – и объясняющая переменная Х принимает значения х1, х2, х3. Определяя некоторую систему координат с осями координат 1, 2, 3, эти значения можно рассматривать как компоненты векторов Y = (у1, у2, у3), Х = (х1, х2, х3). Наряду с этими векторами рассмотрим вектор S = (1, 1, 1) (смотри рисунок.). Из значений , получаемых из уравнения регрессии ŷ = a + b x , образуем вектор, и в силу уравнения регрессии этот вектор является линейной комбинацией векторов S и X, т. е. . Поэтому вектор лежит в плоскости p векторов S и Х.
   Задача линейной регрессии заключается в необходимости нахождения таких оценок а и b, при которых вектор  наилучшим образом заменяет вектор Y. Это произойдёт в том случае, если вектор погрешности  имеет минимальную длину, т. е. вектор  в этом случае должен быть перпендикулярен плоскости π, вектор  есть проекция вектора Y на плоскость π. В силу этого имеем е ⊥ Х и е ⊥ S.
   Из признака перпендикулярности векторов (вектора перпендикулярны, если их скалярное произведение равно нулю) имеем уже известные уравнения системы (2.3):
Средняя арифметическая относительных погрешностей
называется средней оценкой аппроксимации.

Продолжение решения примера

  В таблице 1 приведён расчёт параметров линии регрессии а и b, а также среднюю погрешность аппроксимации. Она в данном примере составляет 12,25%.

Таблица 1

n х у х2 x·y ŷ ei A
1 22,8 23 519,84 524,40 22,366 0,633874 2,755972
2 27,5 26,8 756,25 737,00 23,915 2,885235 10,7658
3 34,5 28 1190,25 966,00 26,221 1,778751 6,352682
4 26,4 18,4 696,96 485,76 23,552 -5,15232 28,00173
5 19,8 30,4 392,04 601,92 21,378 9,022367 29,67884
6 17,9 20,8 320,41 372,32 20,752 0,048412 0,232751
7 25,2 22,4 635,04 564,48 23,157 -0,75692 3,37911
8 20,1 21,8 404,01 438,18 21,476 0,323517 1,484024
9 20,7 18,5 428,49 382,95 21,674 -3,17418 17,15774
10 21,4 23,5 457,96 502,90 21,905 1,59517 6,787959
11 19,8 16,7 392,04 330,66 21,378 -4,67763 28,00978
12 24,5 20,4 600,25 499,80 22,926 -2,52627 12,38369
средзнач 23,38 22,56 566,13 533,86     12,25
дисп 19,35            
cov (X, Y) 6,375139            
b 0,329498 Параметры прямой регрессии      
a 14,85358      
Построить линию регрессии на корреляционном поле в пакете Excel можно следующим образом:
  1. ''Кликнуть'' по полю диаграмма.
  2. На рабочем столе выбрать ''Диаграмма'', ''Добавить линию тренда''.
  3. Выбрать тип ''линейная'', выбрать далее ''параметры'' и отметить опцию ''показывать уравнение на диаграмме''. У Вас должна получиться следующая картинка (смотри рисунок.).
   Так как b = 0,329498, то при увеличении пробега вагона на 1 тыс. км. стоимость обслуживания вагона увеличивается на 0,329 тыс. руб.

Вопросы для самопроверки

  1. В чём состоит задача регрессионного анализа?
  2. Какая связь между случайными величинами называется стохастической?
  3. Какая связь между случайными величинами называется корреляционной?
  4. Что называется погрешностями в регрессионном анализе?
  5. Проиллюстрируйте на рисунке величины погрешностей.
  6. Что называется вектором погрешностей?
  7. Какой должна быть длина вектора погрешностей при правильном решении задачи регрессионного анализа?
  8. Сформулируйте общую постановку задачи регрессионного анализа.
  9. Что называется ковариацией двух линейных массивов случайных величин?
  10. Приведите геометрическую интерпретацию задачи линейной регрессии.
  11. Что называется средней оценкой аппроксимации?