ЛЕКЦИЯ 5
- Параболическая регрессия.
- Логарифмическая регрессия.
- Показательная регрессия.
- Коэффициент ранговой корреляции Спирмена.
- Параболическая регрессия в пакете MAPLE.
- Упражнения.
- Вопросы для самопроверки.
Параболическая регрессия
Допустим, что точки А i(xi, yi) располагаются приблизительно на параболе второго порядка. Уравнение параболы – параболической регрессии у на х – будем искать в виде
Квадрат модуля вектора ошибок в этом случае будет равен
,


Логарифмическая регрессия
Допустим, что точки А i(xi, yi) располагаются приблизительно на логарифмической функции. Уравнение регрессии у на х – будем искать в виде

(3)
. Подставляя а0 во второе уравнение системы (3), найдем
.Таблица 1
| n | y | x | lg x | (lg x)2 | y·(lg x) |
| 1 | 2 | 3 | 4 | 5 | 6 |
| 1 | 1,5 | 4 | 0,6021 | 0,3625 | 0,9031 |
| 2 | 2 | 5 | 0,6990 | 0,4886 | 1,3979 |
| 3 | 1,4 | 5 | 0,6990 | 0,4886 | 0,9786 |
| 4 | 2,3 | 6 | 0,7782 | 0,6055 | 1,7897 |
| 5 | 2,7 | 8 | 0,9031 | 0,8156 | 2,4383 |
| 4 | 10 | 1,0000 | 1,0000 | 4,0000 | |
| 7 | 2,3 | 8 | 0,9031 | 0,8156 | 2,0771 |
| 8 | 2,5 | 7 | 0,8451 | 0,7142 | 2,1127 |
| 9 | 6,6 | 11 | 1,0414 | 1,0845 | 6,8732 |
| 10 | 1,7 | 6 | 0,7782 | 0,6055 | 1,3229 |
| сумма | 27 | 70 | 8,2490 | 6,980466 | 23,89358 |
| срзнач | 2,7 | 7 | 0,8249 | 0,698047 | 2,389358 |
| дисп | 0,0176 | ||||
| ковариация | 0,162135212 | ||||
| a1 | 9,216957416 | ||||
| a0 | - 4,903043471 |

Рис. 6.1

Таблица 2
| n | y | x | lg x | yx | y - yx | (y - yx)² | Y² |
| 1 | 1,5 | 4 | 0,6021 | 0,65 | 0,8538 | 0,7290 | 2,25 |
| 2 | 2 | 5 | 0,6990 | 1,54 | 0,4606 | 0,2122 | 4 |
| 3 | 1,4 | 5 | 0,6990 | 1,54 | -0,1394 | 0,0194 | 1,96 |
| 4 | 2,3 | 6 | 0,7782 | 2,27 | 0,0308 | 0,0010 | 5,29 |
| 5 | 2,7 | 8 | 0,9031 | 3,42 | -0,7207 | 0,5194 | 7,29 |
| 6 | 4 | 10 | 1,0000 | 4,31 | -0,3139 | 0,0985 | 16 |
| 7 | 2,3 | 8 | 0,9031 | 3,42 | -1,1207 | 1,2559 | 5,29 |
| 8 | 2,5 | 7 | 0,8451 | 2,89 | -0,3862 | 0,1491 | 6,25 |
| 9 | 6,6 | 11 | 1,0414 | 4,70 | 1,9046 | 3,6277 | 43,56 |
| 10 | 1,7 | 6 | 0,7782 | 2,27 | -0,5692 | 0,3239 | 2,89 |
| сумма | 27 | 70 | 8,2490 | 27,00 | 6,9361 | 94,78 | |
| срзнач | 2,7 | 7 | 0,8249 | ||||
| a1 | 9,2166 | ||||||
| a0 | -4,90275 |
Среднее квадратическое отклонение результативного признака у i от выровненных значений ух равно


Оценка практической значимости модели (4) индексом детерминации. Для этого по итоговым данным таблицы 2 определяется дисперсия

определяется коэффициент детерминации
,Оценка значимости коэффициента корреляции r ≈ 0,827 осуществляется по F – критерию. Определим фактическое значение Fr

Показательная регрессия
(5)


Таблица 3
| n | y | x | x ² | lg y | x·lg y |
| 1 | 1,5 | 4 | 16 | 0,17609 | 0,70437 |
| 2 | 2 | 5 | 25 | 0,30103 | 1,50515 |
| 3 | 1,4 | 5 | 25 | 0,14613 | 0,73064 |
| 4 | 2,3 | 6 | 36 | 0,36173 | 2,17037 |
| 5 | 2,7 | 8 | 64 | 0,43136 | 3,45091 |
| 6 | 4 | 10 | 100 | 0,60206 | 6,02060 |
| 7 | 2,3 | 8 | 64 | 0,36173 | 2,89382 |
| 8 | 2,5 | 7 | 49 | 0,39794 | 2,78558 |
| 9 | 6,6 | 11 | 121 | 0,81954 | 9,01498 |
| 10 | 1,7 | 6 | 36 | 0,23045 | 1,38269 |
| сумма | 27 | 70 | 536 | 3,82806 | 30,65911 |

(6)| n | y | x | yx | y - yx | (y- yx)² |
| 1 | 1,5 | 4 | 1,3518 | 0,1482 | 0,0220 |
| 2 | 2 | 5 | 1,6401 | 0,3599 | 0,1295 |
| 3 | 1,4 | 5 | 1,6401 | -0,2401 | 0,0576 |
| 4 | 2,3 | 6 | 1,9899 | 0,3101 | 0,0961 |
| 5 | 2,7 | 8 | 2,9294 | -0,2294 | 0,0526 |
| 6 | 4 | 10 | 4,3124 | -0,3124 | 0,0976 |
| 7 | 2,3 | 8 | 2,9294 | -0,6294 | 0,3962 |
| 8 | 2,5 | 7 | 2,4144 | 0,0856 | 0,0073 |
| 9 | 6,6 | 11 | 5,2323 | 1,3677 | 1,8707 |
| 10 | 1,7 | 6 | 1,9899 | -0,2899 | 0,0841 |
| сумма | 27 | 70 | 26,4297 | 2,8138 |


Оценка практической значимости модели (5) корреляции

Оценка значимости коэффициента корреляции r ≈ 0,93 осуществляется по F – критерию. Определим фактическое значение Fr

Из коэффициента детерминации R² = 0,93 ² следует, что 85,5% общей вариации результативного признака объясняется изменением факторного признака х. Поэтому построенная модель (5) признаётся пригодной для практических целей.
Из проведённого анализа исходных данных следует практическая значимость предложенных моделей (4), (5). Для отбора наиболее подходящей модели производится сравнение их остаточных дисперсий Qe (табл.4):
Таблица 4
| Модель | Остаточная дисперсия | |
| 1. | yx = - 4,9027 + 9,2166·lg x | 0,69361 |
| 2. | ![]() | 0,532 = 0,28138 |
Коэффициент ранговой корреляции Спирмена
Коэффициент ранговой корреляции Спирмена находится по формуле
, (7)Если ранги всех объектов равны (ri = si, i =1, 2,..., n), то ρ = 1, т. е. при полной прямой связи ρ = 1. При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, можно показать, что ρ = - 1. Во всех остальных случаях | ρ | < 1.
При ранжировании иногда сталкиваются со случаями, когда невозможно найти существенные различия между объектами по величине проявления рассматриваемого признака: объекты, как говорят, оказываются связанными. Связанным объектам приписывают одинаковые средние ранги, такие, чтобы сумма всех рангов оставалась такой же, как и при отсутствии связанных рангов. Например, если четыре объекта оказались равнозначными в отношении рассматриваемого признака и невозможно определить, какие из четырех рангов (4, 5, 6, 7) приписать этим объектам, то каждому объекту приписывается средний ранг, равный (4 + 5 + 6 + 7)/4=5,5. В модификациях формулы (1) на связанные ранги вводятся поправки.
При проверке значимости ρ исходят из того, что в случае справедливости гипотезы об отсутствии корреляционной связи между переменными при n > 10 статистика
, (8)Пример. По результатам тестирования 10 студентов по двум дисциплинам А и В на основе набранных баллов получены следующие ранги (табл. 5). Вычислить коэффициент ранговой корреляции Спирмена и проверить его значимость на уровне α = 0,05.
Решение. Разности рангов и их квадраты поместим в последних двух строках табл. 5.
| Ранги по дисциплинам | Результаты тестирования студентов | |||||||||||
| 1-й | 2-й | 3-й | 4-й | 5-й | 6-й | 7-й | 8-й | 9-й | 10-й | Всего | ||
| А | ri | 2 | 4 | 5 | 1 | 7,5 | 7,5 | 7,5 | 7,5 | 3 | 10 | 55 |
| В | si | 2,5 | 6 | 4 | 1 | 2,5 | 7 | 8 | 9,5 | 5 | 9,5 | 55 |
| ri - si | -0,5 | -2 | 1 | 0 | 5 | 0,5 | -0,5 | -2 | -2 | 0,5 | - | |
| (ri - si)2 | 0,25 | 4 | 1 | 0 | 25 | 0,25 | 0,25 | 4 | 4 | 0,25 | 39 | |
.
.
Ранговый коэффициент корреляции ρ может быть использован и для оценки тесноты связи между обычными количественными переменными. Достоинство ρ здесь заключается в том, что нахождение этого коэффициента не требует нормального распределения переменных, линейной связи между ними. Однако необходимо учитывать, что при переходе от первоначальных значений переменных к их рангам происходит определенная потеря информации. Чем теснее связь, чем меньше корреляционная зависимость между переменными отличается от линейной, тем ближе коэффициент корреляции Спирмена ρ к коэффициенту парной корреляции r.
Параболическая регрессия в пакете MAPLE
>fit[leastsquare[[x,y], y=a*x^2+b*x+c]]( [X,Y]);
Упражнения
- Имеются следующие данные об уровне механизации работ X(%) и производительности труда У (т/ч) для 14 однотипных предприятий:
Необходимо:xi 32 30 36 40 41 47 56 54 60 55 61 67 69 76 yi 20 24 28 30 31 33 34 37 38 40 41 43 45 48 - а) оценить тесноту и направление связи между переменными с помощью коэффициента корреляции;
- б) найти уравнение регрессии Y по X.
- При исследовании корреляционной зависимости между ценой на нефть X и индексом нефтяных компаний Y получены следующие данные:
х =16,2(ден.ед.), у = 4000(усл. ед.), sx2 = 4, sy2 = 500, Сov(X, Y) = 40. Необходимо:- а) составить уравнение регрессии Y пo X;
- б) используя уравнение регрессии, найти среднее значение индекса при цене на нефть 16,5 ден. ед.
- По данным примера 1:
- а) найти уравнение регрессии Y по X;
- б) найти коэффициент детерминации R2 и пояснить его смысл;
- в) проверить значимость уравнения регрессии на 5%-ном уровне по F - критерию;
- г) оценить среднюю производительность труда на предприятиях с уровнем механизации работ 60% и по строить для нее 95%-ный доверительный интервал; аналогичный доверительный интервал найти для индивидуальных значений производительности труда на тех же предприятиях.
- По данным 30 нефтяных компаний получено следующее уравнение регрессии между оценкой Y (ден. ед.) и фактической стоимостью Х (ден. ед.) этих компаний: ух = 0,8750 x + 295. Найти: 95%-ные доверительные интервалы для среднего и индивидуального значений оценки предприятий, фактическая стоимость которых составила 1300 ден. ед., если коэффициент корреляции между переменными равен 0,76, а среднее квадратическое отклонение переменной X равно 270 ден. ед.
- При приеме на работу семи кандидатам было предложено два теста. Результаты тестирования приведены в таблице:
Вычислить коэффициент ранговой корреляции Спирмена между результатам тестирования по двум тестам и на уровне α = 0,05 оценить его значимость.Тест Результаты тестирования кандидатов (в баллах) 1-й 2-й 3-й 4-й 5-й 6-й 7-й 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26 - Используя данные таблицы
1 х 0,4 0,86 1,32 1,78 2,24 2,7 3,16 3,62 4,08 4,54 у -20,5 -11,2 -8,3 -6,93 -6,5 -5,59 -5,3 -4,93 -4,83 -4,54 2 х 0,01 0,51 1,01 1,52 2,01 2,51 3,0 3,05 4,0 4,5 у -1,14 2,39 3,01 3,37 3,63 3,83 3,99 4,13 4,25 4,35 3 х -5 -3,91 -2,82 -1,73 -0,64 0,45 1,54 2,63 3,72 4,81 у 0 -0,01 -0,01 -0,03 -0,07 -0,18 -0,2 -0,23 -0,24 -0,25 4 х -2,1 -1,79 -1,48 -1,17 -0,86 -0,55 -0,24 0,07 0,38 0,69 у 0,28 0,29 0,3 0,32 0,36 0,48 0,78 1,52 3,41 8,21 5 х 0,01 0,53 1,05 1,57 2,09 2,61 3,12 3,64 4,16 4,68 у 15,22 3,31 1,26 0,05 -0,81 -1,74 -2,17 -2,48 -2,88 -3,23 6 х 0 0,4 0,8 1,2 1,6 2,0 2,4 2,8 3,2 3,6 у 0,3 7,5 11,37 14,5 17,24 19,9 21,98 24,11 26,12 28,04 7 х -4 -3,01 -2,02 -1,03 -0,04 0,95 1,94 2,93 3,92 4,91 у -0,02 -0,05 -0,12 -0,26 -0,49 -0,72 -0,87 -0,94 -0,98 -0,99 8 х 0,4 0,81 1,22 1,5 2,04 2,45 2,86 3,27 3,68 4,09 у 1,8 0,53 0,12 -0,09 -0,21 -0,31 -0,35 -0,39 -0,43 -0,46 9 х -1 -0,72 -0,44 -0,17 0,12 0,39 0,67 0,95 1,22 1,5 у -4,95 -4,89 -4,74 -4,39 -3,6 -1,93 2,42 12,08 34,33 85,55 10 х 0,01 0,51 1,01 1,51 2,01 2,51 3,01 3,51 4,01 4,51 у -4,76 2,29 3,52 4,24 4,76 5,06 5,48 5,76 6,0 6,21 11 х -5 -3,95 -2,9 -1,85 -0,8 0,25 1,3 2,35 3,4 4,45 у -0,01 -0,03 -0,8 -0,2 -0,49 -0,96 -1,45 -1,76 -1,91 -1,97 12 х 0,5 1,4 2,3 3,2 4,1 5,0 5,9 6,8 7,7 8,6 у 2,41 3,32 4,1 4,3 4,64 4,94 5,0 5,43 5,64 5,84 13 х 0,11 0,499 0,89 1,28 1,67 2,055 2,44 2,83 3,22 3,61 у 6,27 0,6 -0,1 -0,37 -0,52 -0,61 -0,67 -0,69 -0,75 -0,78 14 х 0,01 0,59 1,17 1,75 2,33 2,91 3,48 4,06 4,64 5,22 у 8,82 -3,41 -5,93 -6,67 -7,53 -8,2 -8,74 -9,15 -9,61 -9,96 15 х -2 -1,62 -1,24 -0,87 -0,49 -0,11 0,27 0,65 1,02 1,4 у 37,63 19,33 10,19 5,55 3,21 2,02 1,64 1,11 0,96 0,88 - а) подобрать регрессионную модель по максимальности коэффициента детерминации;
- б) найти параметры этой регрессионной модели;
- в) найти для этой модели среднюю погрешность аппроксимации
Вопросы для самопроверки
- Постройте параболическую регрессию для рассмотренной в лекции задаче и сравните качество параболической регрессии с построенными в лекции моделями.
- Как логарифмическую регрессию привести к линейной?
- Как показательную регрессию привести к линейной?
- Как проверить значимость (типичность) значений параметров построенной модели регрессии?
- Как проверить значимость (типичность) построенной модели регрессии?
- Какой вид имеет коэффициент ранговой корреляции Спирмена?
