ЛЕКЦИЯ 10

Общие сведения о временных рядах и задачах их анализа

   При рассмотрении классической модели регрессии характер экспериментальных данных, как правило, не имеет принципиального значения. Однако это оказывается не так, если условия классической модели нарушены.
   Методы исследования моделей, основанных на данных пространственных выборок и временных рядов, вообще говоря, существенно отличаются. Объясняется это тем, что в отличие от пространственных выборок наблюдения во временных рядах, как правило, нельзя считать независимыми.
   Ниже мы остановимся на некоторых общих понятиях и вопросах, связанных с временными рядами, использованием регрессионных моделей временных рядов для прогнозирования. При анализе точности этих моделей и определении интервальных ошибок прогноза на их основе, будем полагать, что рассматриваемые в главе регрессионные модели временных рядов удовлетворяют условиям классической модели. Модели временных рядов, в которых нарушены эти условия, будут рассмотрены далее.
   Под временным рядом в экономике подразумевается последовательность наблюдений некоторого признака (случайной величины) Y в последовательные моменты времени. Отдельные наблюдения называются уровнями ряда, которые будем обозначать yt(t = 1, 2,..., n), где n - число уровней.
   Пусть указан спрос на некоторый товар (усл. ед) за восьмилетний период , т. е. временной ряд спроса уt.
Год, t12345678
Спрос, yt213171291309317362351361
На рисунке указано регрессионное поле с линией регрессии на нём.
   В общем виде при исследовании экономического временного ряда yt выделяются несколько составляющих:
yt = ut + vt + ct + εt   (t = 1, 2, … n),                      (10.1)
где    Важнейшей классической задачей при исследовании экономических временных рядов является выявление и статистическая оценка основной тенденции развития изучаемого процесса и отклонений от неё.
   Основные этапы анализа временных рядов заключаются в следующем:    Среди наиболее распространенных методов анализа временных рядов выделим корреляционный и спектральный анализ, модели авторегрессии и скользящей средней. О некоторых из них речь пойдет ниже.
   Если выборка у1, у2, …, уn рассматривается как одна из реализаций случайной величины Y, временной ряд у1, у2, …, уn рассматривается как одна из реализаций (траекторий) случайного процесса Y(t). Случайным процессом (или случайной функцией) Y(t) неслучайного аргумента t называется функция, которая при любом значении t является случайной величиной. Вместе с тем следует иметь в виду принципиальные отличия временного ряда yt ( t = 1,2,..., n) от последовательности наблюдений у1, у2, …, уn, образующих случайную выборку. Во-первых, в отличие от элементов случайной выборки члены временного ряда, как правило, не являются статистически независимыми. Во-вторых, члены временного ряда не являются одинаково распределенными.

Стационарные временные ряды

   Важное значение в анализе временных рядов имеют стационарные временные ряды, вероятностные свойства которых не изменяются во времени. Стационарные временные ряды применяются, в частности, при описании случайных составляющих анализируемых рядов.
   Временной ряд уt (t = 1, 2, …, n) называется строго стационарным, если совместное распределение вероятностей n наблюдений у1, у2, …, уn такое же, как и n наблюдений у1+τ, …, уn+τ при любых n, t и τ. Свойства строго стационарных рядов yt не зависят от момента t, то есть закон распределения и его числовые характеристики не зависят от t. Следовательно, математическое ожидание ay = a, среднее квадратическое отклонение σy = σ могут быть оценены по наблюдениям уt (t = 1, 2, …, n) по формулам:
,                                                   (10.2)
.                                        (10.3)
   Простейшим примером стационарного временного ряда, у которого математическое ожидание равно нулю, а ошибки ε t некоррелированы, является «белый шум». Следовательно, можно сказать, что возмущения (ошибки) εt, в классической линейной регрессионной модели образуют белый шум, а в случае их нормального распределения - нормальный (гауссовский) белый шум.
   Степень тесноты связи между последовательностями наблюдений временного ряда у1, у2, … ,уn и у 1+ τ, у 2+τ, … , у n (сдвинутых относительно друг друга на τ единиц, или, как говорят, с лагом τ) может быть определена с помощью коэффициента корреляции
,       (10.4)
поскольку M (y t) = M (y t ) = a и σ y(t) = σ y(t+τ ) = σ.

Автокорреляционная функция

   Так как коэффициент ρ(τ) измеряет корреляцию между члеами одного и того же ряда, его называют коэффициентом автопрреляции, а зависимость ρ(τ) называют автокорреляционной функцией. Коэффициент ρ(τ) измеряет корреляцию между элементами одного и того же ряда.
   В силу стационарности временного ряда у t (t = 1, 2, …, n) автокорреляционная функция ρ(τ) зависит только от лага τ, причём ρ(- τ) = ρ(τ) является чётной и при изучении ρ(τ) можно ограничиться только положительными значениями τ.
   Статистической оценкой ρ(τ) является выборочный коэффициент автокорреляции r(τ), определяемый по формуле коэффициента корреляции, в которой xi = yi, yi = yi+τ, а n заменяется на n - τ:
.     (10,5)
Функцию ρ(τ) называют выборочной автокорреляционной функций, а её график — коррелограммой.
   При расчете ρ(τ) следует помнить, что с увеличением τ число n - τ пар наблюдений yt, yt+τ уменьшается, поэтому лаг τ должен быть таким, чтобы число n - τ было достаточным для определения ρ(τ). Обычно ориентируются на соотношение τ < n/4.
   Для стационарного временного ряда с увеличением лага τ взаимосвязь членов временного ряда y t и y t+τ ослабевает и автокорреляционная функция ρ(τ) должна по абсолютной величине убывать. В то же время для ее выборочного аналога r(τ), особенно при небольшом числе пар наблюдений n - τ, свойство монотонного убывания (по абсолютной величине) при возрастании τ может нарушаться.
   Наряду с автокорреляционной функцией при исследовании стационарных временных рядов рассматривается частная автокорреляционная функция ρ част(τ), где ρ част(τ) есть частный коэффициент корреляции между членами временного ряда y t и yt+τ при устранении влияния промежуточных ( между yt и yt+τ ) членов.
   Статистической оценкой ρ част(τ) является выборочная частная автокорреляционная функция rчаст(τ), где rчаст(τ) — выборочный частный коэффициент корреляции. Например, выборочный частный коэффициент автокорреляции первого порядка между членами временного ряда y t и y t+2 при устранении влияния yt+1 может быть вычислен по формуле
,
где r(1), r(1,2), r(2) - выборочные коэффициенты автокорреляции между yt и yt+1, yt+1 и yt+2, yt и yt+2 t = l,..., n.

Пример 1

   По данным
Год, t12345678
Спрос, yt213171291309317362351361
найти среднее значение, среднее квадратическое отклонение, коэффициенты автокорреляции (для лагов τ = 1; 2) и частный коэффициент автокорреляции первого порядка.
   Решение.

Находим среднее значение временного ряда

,
дисперсию и среднее квадратическое отклонение
,
   Найдём коэффициент автокорреляции r(τ) временного ряда для лага τ = 1
y t213171291309317362351
yy+τ171291309317362351361

Находим необходимые суммы:


Теперь по формуле автокорреляции (5) находим
Коэффициент корреляции r(2) для лага τ = 2 между членами ряда
yt213171291309317362
yt+2291309317362251361
уt и уt+τ (t = 1, 2,…, 6) по шести парам наблюдения вычисляются аналогично r(2)= 0,8422425256.
   Для определения частного коэффициента корреляции первого порядка r част(2) = r 02,1 между членами у t и уt+2 при исключении влияния у t+1 вначале находится коэффициент автокорреляции r(2,1) между членами ряда уt+1 и у t+2
уt+1171291309317362351
уt+2291309317362351361
r (1,2) = 0,8252874686.
   Знание автокорреляционных функций r(τ) и rчаст(τ) может оказать существенную помощь при подборе и идентификации модели анализируемого временного ряда и статистической оценке его параметров (см. об этом дальше).

Аналитическое выравнивание (сглаживание) временного ряда
(выделение неслучайной компоненты)

   Одной из важнейших задач экономического временного ряда является выявление основной тенденции изучаемого процесса, выраженной неслучайной составляющей f (t) (тренда либо тренда с циклической или (и) сезонной компонентой). Для решения этой задачи необходимо выбрать функцию f(t). Наиболее часто используются следующие функции:    Это весьма ответственный этап исследования. При выборе соответствующей функции f (t) используют содержательный анализ (который может установить характер динамики процесса), визуальные наблюдения (на основе графического изображения временного ряда). При выборе полиномиальной функции может быть применен метод последовательных разностей (состоящий в вычислении разностей первого порядка Δt = уt - yt-1, второго порядка Δt(2) = Δt - Δt-1, и т. д.), и порядок разностей, при котором они будут примерно одинаковыми, принимается за степень полинома.
   Из двух функций предпочтение обычно отдаётся той, при которой меньше сумма квадратов отклонений фактических данных от расчётных на основе этих функций. Но этот принцип нельзя доводить до абсурда: так, для любого ряда из n точек можно подобрать полином (n - 1)-й степени, проходящий через все точки, и соответственно с минимальной - нулевой - суммой квадратов отклонений, но в этом случае, очевидно, не следует говорить о выделении основной тенденции, учитывая случайный характер этих точек. Поэтому при прочих равных условиях предпочтение следует отдавать более простым функциям.
   Для выявления основной тенденции чаще всего используется метод наименьших квадратов. Значения временного ряда у t рассматриваются как зависимая переменная, а время t — как объясняющая:
у t = f (t) + εt,
где εt — возмущения представляют собой независимые и одинаково распределённые случайные величины, распределение которых считается нормальным.
   Согласно методу наименьших квадратов параметры прямой линии ŷt = f ( t ) + εt находятся из системы уравнений
Учитывая, что значения переменной t = 1, 2,..., n образуют натуральный ряд чисел от 1 до n, суммы в системе уравнений можно выразить через число членов ряда т по известным в математике формулам:

Пример 2

   По данным примера 1 найти уравнение неслучайной составляющей (тренда) для временного ряда yt полагая тренд линейным.
   Решение. По формулам находим
Система уравнений имеет вид
Решением системы этих уравнений будет b0 = 181,32; b1 = 25,679.
   Уравнением линии тренда будет ŷt = 181,32 + 25,679 t , то есть спрос ежегодно увеличивается на 25,7 единиц.
   При решении задачи можно было не выписывать систему уравнений, а представить уравнение регрессии в виде
,
где
,
а коэффициент регрессии b1 найти по формуле
,
где

Проверка значимости линии тренда

   Проверим значимость полученного уравнения тренда по F – критерию на 5% уровне значимости. Вычислим суммы квадратов: Найдём значение статистики
.
Так как F > F0,05;1;6 = 5,99, то уравнение тренда значимо.

Реализация вычислений в пакете MAPLE

> restart: with(stats):n=8:t:=[1,2,3,4,5,6,7,8];y:=[213,171,291,309,317,362,351,361];
t := [1, 2, 3, 4, 5, 6, 7, 8]
y:=[213,171,291,309,317,362,351,361]
> with(stats[statplots]):plots[display]({scatterplot(t,y)},view=[min(seq(t[i],i=1..8))-1..max(seq(t[i],i=1..8))+1,min(seq(y[i],i=1..8))-1..max(seq(y[i],i=1..8))],axes=FRAME,symbol=circle,symbolsize=15);
> sy:=describe[mean](y);evalf(%);

> disp_y:=describe[variance](y);evalf(%);

> sigma_y:=describe[standarddeviation](y);evalf(%);

> tau:=1:y1:=[seq(y[i],i=1..n-tau)];y2:=[seq(y[i],i=1+tau..n)];

> describe[linearcorrelation](y1,y2): r(1):=evalf(%);#Ковариация
> tau2:=2:y3:=[seq(y[i],i=1..n-tau2)];y4:=[seq(y[i],i=1+tau2..n)];

> describe[linearcorrelation](y3,y4): r(2):=evalf(%);#Коэффициент ковариации
> y5:=[seq(y[i],i=1+tau..n-tau)];y6:=[seq(y[i],i=1+tau2..n)];

> describe[linearcorrelation](y5,y6): r(1,2):=evalf(%);#Коэффициент ковариации
> rch(2):=((r(2)-r(1)*r(1,2))/(sqrt(1-r(1)^2)*sqrt(1-r(1,2)^2)));#частный коэффициент корреляции
> k1:=sum('t','t=1..8');k2:=sum('t^2','t=1..8');k3:=sum('y[t]','t=1..8');k4:=sum('y[t]^2','t=1..8');k5:=sum('y[t]*t','t=1..8');




> with(linalg):A:=matrix(2,2,[n,k1,k1,k2]);B:=matrix(2,1,[k3,k5]);

> b:=linsolve(A,B);
> b0:=evalf(b[1,1]);b1:=evalf(b[2,1]);

> lt:=plot(b0+b1*x,x=0..9,color=black,thickness=2): > n:=8:with(stats[statplots]):plots[display]({scatterplot(t,y),lt},view=[min(seq(t[i],i=1..n))-1..max(seq(t[i],i=1..n))+1,min(seq(y[i],i=1..n))-10..max(seq(y[i],i=1..n))+40],axes=FRAME,symbol=circle,symbolsize=15,thickness=2);