ЛЕКЦИЯ 5

  1. Параболическая регрессия.
  2. Логарифмическая регрессия.
  3. Показательная регрессия.
  4. Коэффициент ранговой корреляции Спирмена.
  5. Параболическая регрессия в пакете MAPLE.
  6. Упражнения.
  7. Вопросы для самопроверки.

Параболическая регрессия

   Между переменными Х и Y могут существовать и нелинейные корреляционные зависимости. Уравнения регрессии при нелинейной корреляционной связи между двумя переменными величинами ищутся так же, как и уравнения прямой регрессии.
   Допустим, что точки А i(xi, yi) располагаются приблизительно на параболе второго порядка. Уравнение параболы – параболической регрессии у на х – будем искать в виде
y = a0 + a1·x + a2·x ²                     (1)
(нахождение уравнений парабол более высокого порядка аналогично).
   Квадрат модуля вектора ошибок в этом случае будет равен
,
Составляя необходимое условие экстремума функции нескольких переменных, получим
или
Вводя соответствующие обозначения средних, получим

Логарифмическая регрессия

   Имеется следующая информация по однотипным предприятиям торговли о продолжительности эксплуатации типового оборудования Х и затратах на его ремонт Y. В целях нормирования расхода средств на ремонт оборудования произвести построение адекватной математической модели.
   Допустим, что точки А i(xi, yi) располагаются приблизительно на логарифмической функции. Уравнение регрессии у на х – будем искать в виде
y = a0 + a1·lgx                     (2)
В качестве промежуточного аргумента функции считаем u = lgx и уравнение регрессии примет вид линейной функции
y = a0 + a1·u.
Вследствие этого, можно воспользоваться уравнениями и выводами для линейной регрессии, полученными выше. Так система уравнений для нахождения параметров линии регрессии примет вид
Вводя обозначения для соответствующих средних, предыдущая система уравнений примет вид
                     (3)
Из первого уравнения находим . Подставляя а0 во второе уравнение системы (3), найдем
.
Применительно к системе (3) составляется расчётная таблица

Таблица 1

nyxlg x(lg x)2y·(lg x)
123456
11,540,60210,36250,9031
2250,69900,48861,3979
31,450,69900,48860,9786
42,360,77820,60551,7897
52,780,90310,81562,4383
 4101,00001,00004,0000
72,380,90310,81562,0771
82,570,84510,71422,1127
96,6111,04141,08456,8732
101,760,77820,60551,3229
сумма27708,24906,98046623,89358
срзнач2,770,82490,6980472,389358
дисп0,0176    
ковариация0,162135212    
a19,216957416    
a0- 4,903043471    
Таким образом, по вычисленным параметрам а1 = 9,216957 и а0 = - 4,903043 строится модель зависимости расходов на ремонт от возраста оборудования по уравнению регрессии
yx = - 4,9027 + 9,2166·lg x.                     (4)
Картина корреляционного поля и линии логарифмической регрессии линии регрессии для рассматриваемой задачи представлены на рис. 6.1

Рис. 6.1
Для проверки типичности параметров модели (4) определяются значения параметра у, получаемые по уравнению регрессии (4):

Таблица 2

nyxlg xyxy - yx(y - yxY²
11,540,60210,650,85380,72902,25
2250,69901,540,46060,21224
31,450,69901,54-0,13940,01941,96
42,360,77822,270,03080,00105,29
52,780,90313,42-0,72070,51947,29
64101,00004,31-0,31390,098516
72,380,90313,42-1,12071,25595,29
82,570,84512,89-0,38620,14916,25
96,6111,04144,701,90463,627743,56
101,760,77822,27-0,56920,32392,89
сумма27708,249027,00 6,936194,78
срзнач2,770,8249    
a19,2166      
a0-4,90275      
По итогам таблицы 2 определим необходимые величины.
   Среднее квадратическое отклонение результативного признака у i от выровненных значений ух равно
Далее вычислим фактические значения t – критерия:
Критическое значение по таблице Стьюдента с учётом принятого уровня значимости α = 0,05 и числом степеней свободы k = 10 – 2 = 8 равно tk = 2,306. Полученные в анализе корреляционные связи параметры уравнения регрессии признаются типичными, если t фактическое больше t критического:
t a0 > t k < t a1
В данном случае это условие выполнено. Следовательно, вычисленные по уравнению регрессии (4) параметры модели признаются типичными.
   Оценка практической значимости модели (4) индексом детерминации. Для этого по итоговым данным таблицы 2 определяется дисперсия
При  определяется коэффициент детерминации
,
откуда r ≈ 0,827. Полученный индекс корреляции означает, что установленная на основе регрессии (4) связь между затратами на ремонт и возрастом оборудования является высокой.
   Оценка значимости коэффициента корреляции r ≈ 0,827 осуществляется по F – критерию. Определим фактическое значение Fr
где m = 2 – число параметров уравнения регрессии. При уровне значимости α = 0,05 и степеням свободы k1 = 2 – 1 = 1 и k2 = 10 – 2 = 8 табличное значение Fr = 5,32. Следовательно, при Fr > Fk показатель тесноты связи r = 0,827 признаётся существенным. Из значения коэффициента детерминации R² = 0,827² следует, что 68,4% общей вариации объясняется изменением факторного признака х. Поэтому построенная модель (4) может быть признана пригодной для практических целей.

Показательная регрессия

   Уравнение показательной регрессии имеет вид
          (5)
Прологарифмируем уравнение (5):
С учётом метода наименьших квадратов составляется система уравнений:
Решая эту систему, получим
Применительно к анализируемым данным засчётные значения определяются из табл.3.

Таблица 3

nyxx ²lg yx·lg y
11,54160,176090,70437
225250,301031,50515
31,45250,146130,73064
42,36360,361732,17037
52,78640,431363,45091
64101000,602066,02060
72,38640,361732,89382
82,57490,397942,78558
96,6111210,819549,01498
101,76360,230451,38269
сумма27705363,8280630,65911
По итоговым данным табл. 3 определяются параметры уравнения
или a1 = 1,213305, a0 = 0,623764. И, таким образом, построенная модель зависимости расходов на ремонт от возраста оборудования определится зависимостью
             (6)
Для проверки типичности параметров линии регрессии определяются выровненные значения и все необходимые величины в табл. 4
nyxyxy - yx(y- yx
11,541,35180,14820,0220
2251,64010,35990,1295
31,451,6401-0,24010,0576
42,361,98990,31010,0961
52,782,9294-0,22940,0526
64104,3124-0,31240,0976
72,382,9294-0,62940,3962
82,572,41440,08560,0073
96,6115,23231,36771,8707
101,761,9899-0,28990,0841
сумма277026,4297 2,8138
По результатам вычисления таблицы находим необходимые величины. Среднее квадратическое отклонение результативного признака уi от выровненных значений ух равно
Фактические значения t – критерия далее по формулам:
Сравнивая фактические значения ta0 и ta1 с критическим значением tk = 2,306, получаем ta0 > tk < ta1. Следовательно, вычисленные по уравнению регрессии (5) параметры модели признаются типичными.
   Оценка практической значимости модели (5) корреляции
Полученный коэффициент корреляции означает, что установленная на основе регрессии (5) связь между затратами на ремонт и возрастом оборудования является весьма высокой.
   Оценка значимости коэффициента корреляции r ≈ 0,93 осуществляется по F – критерию. Определим фактическое значение Fr
При уровне значимости α = 0,05 и степеням свободы k1 = 2 – 1 = 1 и k2 = 10 – 2 = 8 табличное значение FR = 5,32. Следовательно, при Fr > Fk показатель тесноты связи r = 0,93 признаётся существенным.
   Из коэффициента детерминации R² = 0,93 ² следует, что 85,5% общей вариации результативного признака объясняется изменением факторного признака х. Поэтому построенная модель (5) признаётся пригодной для практических целей.
   Из проведённого анализа исходных данных следует практическая значимость предложенных моделей (4), (5). Для отбора наиболее подходящей модели производится сравнение их остаточных дисперсий Qe (табл.4):

Таблица 4

 МодельОстаточная дисперсия
1.yx = - 4,9027 + 9,2166·lg x0,69361
2.0,532 = 0,28138
Из табл. 4 следует, что по критерию минимальности остаточной дисперсии предпочтение следует отдать модели, построенной по показательной функции (6).

Коэффициент ранговой корреляции Спирмена

   До сих пор мы анализировали зависимость между двумя количественными переменными. Вместе с тем в практике эконометрика иногда встречаются случаи, когда необходимо установить тесноту связи между ординальными (порядковыми) переменными (например, качество жилищных условий, тестовые баллы, экзаменационные оценки и т. п.). В этом случае объекты анализа упорядочивают или ранжируют по степени выраженности измеряемых переменных. При этом каждому объекту присваивается определенный номер, называемый рангом. Например, объекту с наименьшим проявлением (значением) признака присваивается ранг 1, следующему за ним - ранг 2 и т. д. Если объекты ранжированы по двум признакам, то имеется возможность оценить тесноту связи между переменными, основываясь на рангах, т. е. тесноту ранговой корреляции.
   Коэффициент ранговой корреляции Спирмена находится по формуле
,                     (7)
где ri и si ранги i-го объекта по переменным X и Y; n - число пар наблюдений.
   Если ранги всех объектов равны (ri = si, i =1, 2,..., n), то ρ = 1, т. е. при полной прямой связи ρ = 1. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, можно показать, что ρ = - 1. Во всех остальных случаях | ρ | < 1.
   При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака: объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов. Например, если четыре объекта оказались равнозначными в отношении рассматриваемого признака и невозможно определить, какие из четырех рангов (4, 5, 6, 7) приписать этим объектам, то каждому объекту приписывается средний ранг, равный (4 + 5 + 6 + 7)/4=5,5. В модификациях формулы (1) на связанные ранги вводятся поправки.
   При проверке значимости ρ исходят из того, что в случае справедливости гипотезы об отсутствии корреляционной связи между переменными при n > 10 статистика
,                     (8)
имеет t - распределение Стьюдента с (n - 2) степенями свободы. Поэтому ρ значим на уровне α, если | t | > t α; n-2, где t α; n-2 - табличное значение t - критерия Стьюдента, определенное на уровне значимости α при числе степеней свободы (n-2).
   Пример. По результатам тестирования 10 студентов по двум дисциплинам А и В на основе набранных баллов получены следующие ранги (табл. 5). Вычислить коэффициент ранговой корреляции Спирмена и проверить его значимость на уровне α = 0,05.
   Решение. Разности рангов и их квадраты поместим в последних двух строках табл. 5.
Ранги по дисциплинам Результаты тестирования студентов
1-й2-й3-й4-й5-й6-й7-й8-й9-й10-йВсего
Аri 24517,57,57,57,531055
В si2,56412,5789,559,555
ri - si-0,5-21050,5-0,5-2-20,5-
(ri - si)20,25410250,250,25440,2539
   По формуле находим (7)
.
   Для проверки значимости ρ по формуле (8) вычислим
.
и найдем по таблице значений критерия Стьюдента t0,05;8 = 2,31. Так как t > t0,05;8 то коэффициент ранговой корреляции ρ значим на 5%-ном уровне. Связь между оценками дисциплин достаточно тесная.
   Ранговый коэффициент корреляции ρ может быть использован и для оценки тесноты связи между обычными количественными переменными. Достоинство ρ здесь заключается в том, что нахождение этого коэффициента не требует нормального распределения переменных, линейной связи между ними. Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации. Чем теснее связь, чем меньше корреляционная зависимость между переменными отличается от линейной, тем ближе коэффициент корреляции Спирмена ρ к коэффициенту парной корреляции r.

Параболическая регрессия в пакете MAPLE

>X:=[22.8,27.5,34.5,26.4,19.8,17.9,25.2,20.1,20.7,21.4,19.8,24.5]:Y:=[23,26.8,28,23.4,22.5,20.8,22.4,21.8,18.5,23.5,18.7,20.4]:
>fit[leastsquare[[x,y], y=a*x^2+b*x+c]]( [X,Y]);
y = 11.13023201·x²+0.4855210827·x-6290.009467

Упражнения

  1. Имеются следующие данные об уровне механизации работ X(%) и производительности труда У (т/ч) для 14 однотипных предприятий:
    xi3230364041475654605561676976
    yi2024283031333437384041434548
       Необходимо:
    • а)   оценить тесноту и направление связи между переменными с помощью коэффициента корреляции;
    • б)   найти уравнение регрессии Y по X.
  2. При исследовании корреляционной зависимости между ценой на нефть X и индексом нефтяных компаний Y получены следующие данные:
    х =16,2(ден.ед.), у = 4000(усл. ед.), sx2 = 4, sy2 = 500, Сov(X, Y) = 40.
    Необходимо:
    • а)   составить уравнение регрессии Y пo X;
    • б)   используя уравнение регрессии, найти среднее значение индекса при цене на нефть 16,5 ден. ед.
  3. По данным примера 1:
    • а)   найти уравнение регрессии Y по X;
    • б)   найти коэффициент детерминации R2 и пояснить его смысл;
    • в)   проверить значимость уравнения регрессии на 5%-ном уровне по F - критерию;
    • г)   оценить среднюю производительность труда на предприятиях с уровнем механизации работ 60% и по строить для нее 95%-ный доверительный интервал; аналогичный доверительный интервал найти для индивидуальных значений производительности труда на тех же предприятиях.
  4. По данным 30 нефтяных компаний получено следующее уравнение регрессии между оценкой Y (ден. ед.) и фактической стоимостью Х (ден. ед.) этих компаний: ух = 0,8750 x + 295. Найти: 95%-ные доверительные интервалы для среднего и индивидуального значений оценки предприятий, фактическая стоимость которых составила 1300 ден. ед., если коэффициент корреляции между переменными равен 0,76, а среднее квадратическое отклонение переменной X равно 270 ден. ед.
  5. При приеме на работу семи кандидатам было предложено два теста. Результаты тестирования приведены в таблице:
    ТестРезультаты тестирования кандидатов (в баллах)
    1-й2-й3-й4-й5-й6-й7-й
    131822526533029
    22155827324226
    Вычислить коэффициент ранговой корреляции Спирмена между результатам тестирования по двум тестам и на уровне α = 0,05 оценить его значимость.
  6. Используя данные таблицы
    1х0,40,861,321,782,242,73,163,624,084,54
    у-20,5-11,2-8,3-6,93-6,5-5,59-5,3-4,93-4,83-4,54
    2х0,010,511,011,522,012,513,03,054,04,5
    у-1,142,393,013,373,633,833,994,134,254,35
    3х-5-3,91-2,82-1,73-0,640,451,542,633,724,81
    у0-0,01-0,01-0,03-0,07-0,18-0,2-0,23-0,24-0,25
    4х-2,1-1,79-1,48-1,17-0,86-0,55-0,240,070,380,69
    у0,280,290,30,320,360,480,781,523,418,21
    5х0,010,531,051,572,092,613,123,644,164,68
    у15,223,311,260,05-0,81-1,74-2,17-2,48-2,88-3,23
    6х00,40,81,21,62,02,42,83,23,6
    у0,37,511,3714,517,2419,921,9824,1126,1228,04
    7х-4-3,01-2,02-1,03-0,040,951,942,933,924,91
    у-0,02-0,05-0,12-0,26-0,49-0,72-0,87-0,94-0,98-0,99
    8х0,40,811,221,52,042,452,863,273,684,09
    у1,80,530,12-0,09-0,21-0,31-0,35-0,39-0,43-0,46
    9х-1-0,72-0,44-0,170,120,390,670,951,221,5
    у-4,95-4,89-4,74-4,39-3,6-1,932,4212,0834,3385,55
    10х0,010,511,011,512,012,513,013,514,014,51
    у-4,762,293,524,244,765,065,485,766,06,21
    11х-5-3,95-2,9-1,85-0,80,251,32,353,44,45
    у-0,01-0,03-0,8-0,2-0,49-0,96-1,45-1,76-1,91-1,97
    12х0,51,42,33,24,15,05,96,87,78,6
    у2,413,324,14,34,644,945,05,435,645,84
    13х0,110,4990,891,281,672,0552,442,833,223,61
    у6,270,6-0,1-0,37-0,52-0,61-0,67-0,69-0,75-0,78
    14х0,010,591,171,752,332,913,484,064,645,22
    у8,82-3,41-5,93-6,67-7,53-8,2-8,74-9,15-9,61-9,96
    15х-2-1,62-1,24-0,87-0,49-0,110,270,651,021,4
    у37,6319,3310,195,553,212,021,641,110,960,88
    • а) подобрать регрессионную модель по максимальности коэффициента детерминации;
    • б) найти параметры этой регрессионной модели;
    • в) найти для этой модели среднюю погрешность аппроксимации

Вопросы для самопроверки

  1. Постройте параболическую регрессию для рассмотренной в лекции задаче и сравните качество параболической регрессии с построенными в лекции моделями.
  2. Как логарифмическую регрессию привести к линейной?
  3. Как показательную регрессию привести к линейной?
  4. Как проверить значимость (типичность) значений параметров построенной модели регрессии?
  5. Как проверить значимость (типичность) построенной модели регрессии?
  6. Какой вид имеет коэффициент ранговой корреляции Спирмена?