Статистика

СОДЕРЖАНИЕ РАЗДЕЛА

Стохастическая связь между случайными величинами
Кривые регрессии
Условные дисперсии
Средневзвешенное из условных дисперсий
Прямые приближённой регрессии
Применение регрессионного анализа в статистических исследованиях
Пример
Применение теории корреляции
Вопросы для самопроверки

Стохастическая связь между случайными величинами

Пусть данные опыта представлены таблицей:

Х	x ₁	x ₂	…	x _n
Y	y ₁	y ₂	…	y _n

Может существовать связь между множеством значений случайных величин Х и Y двух видов: функциональная и стохастическая. Стохастическая связь между двумя случайными величинами появляется тогда, когда имеются общие случайные факторы, влияющие как на одну случайную величину, так и на другую случайную величину. Например, если случайная величина Х является функцией случайных величин Z₁, Z₂, … , Z_m; V₁, V₂, … , V_k: X = f (Z₁, Z₂, … , Z_m; V₁, V₂, … , V_k), а случайная величина Y представляет собой функцию от случайных величин Z₁, Z₂, … , Z_m; U₁, U₂, … , U_m: Y = φ (Z₁, Z₂, … , Z_m; U₁, U₂, … , U_m), то величины Х и Y связаны стохастически.
В отличие от функциональной зависимости для стохастической связи каждому численному значению одной из величин не соответствует строго определённое значение другой. Число этих значений не является постоянным, и сами значения не отражают определённой закономерности. Так, урожайность зависит от количества внесённых удобрений. Но это количество удобрений однозначно не определяет урожайность, а зависит от многих факторов, таких, как: неоднородность химического состава удобрений, рельеф участков поля, неравномерность разброса удобрений и многих других факторов.

Кривые регрессии

Линией регрессии называют центр условного распределения одной величины при изменении другой: M (X/Y = y) = x(y) – регрессия X на Y и M (Y/X = x) = y(x) – регрессия Y на X. То есть, точка принадлежит кривой регрессии, если её ордината равна математическому ожиданию одной случайной величины при условии, что другая случайная величина фиксирована на значении, равном абсциссе точки. Эти линии являются геометрическим местом центров условных распределений, соответствующих заданным значениям одной из переменных. Если вероятности P( X = x, Y = y ) = p( x, y ) представить как систему масс, расположенных в точках (х, у) плоскости (Х,), то y(x) будет ординатой центра масс, расположенных на вертикальной прямой Х = х, а x(y) будет абсциссой центра масс, расположенных на горизонтальной прямой Y = у.

Условные дисперсии

По определению условной вероятности имеем

. Совокупность условных вероятностей p( y₁, x_i ), p( y₂, x_i ), …, p( y_n, x_i ), …, отвечающих одному и тому же значению Х = х _i, называют условным распределением Y при Х = х _i. Следует заметить, что

. Мерой рассеяния одной случайной величины при фиксированной другой случайной величины служит условная дисперсия Y при данном х:

, или в случае непрерывного распределения

, где р(у, х) – условная плотность распределения Y при данном х. Линия условных регрессий называется скедастической. Величина σ_Y/X есть точность прогноза, зависящего от значения х.

Средневзвешенное из условных дисперсий

Величина

называется средним взвешенным значением из условных дисперсий. Эта величина даёт представление о точности прогноза Y по X во всём диапазоне изменения Х. Она тем меньше, более точна и определяет зависимость от Х, чем ближе эта зависимость к строго фиксированной Y = y(x). Кроме того, имеем

. Из свойства минимальности рассеивания, измеряемого средним квадратом отклонения около центра распределения y(x) при каждом значении х, следует, что из всех функций u(x) минимум величины M[Y - u(X)]² достигается при u(X) = y(X), то есть, на линии регрессии. Так что линия регрессии минимизирует среднюю квадратическую погрешность прогноза величины Y по Х.
Пусть дана некоторая линия, уравнение которой зависит от параметров y = f(x, a, b, … , c). Примем величину

, где р (х, у) – плотность двумерного распределения в качестве меры концентрации распределения вероятности около линии с заданным уравнением. Для непрерывного распределения в качестве этой меры примем величину

. Для определения значений величин a, b, … , c найдём минимум функции Δ (a, b, … , c), искомые параметры должны быть решением системы уравнений

Прямые приближённой регрессии

Рассмотрим частный случай, когда уравнение линии есть уравнение прямой y = a + b·x. В этом случае Δ(a, b) = M(Y - a - b·X)². Используя свойства математического ожидания, определение корреляционного момента и дисперсии величин, получим

Из необходимых условий минимума следует система уравнений

Решая эту систему уравнений, найдём значения параметров, при которых величина Δ(a, b) достигает минимум,

и уравнение линейной регрессии принимает вид

Применение регрессионного анализа в статистических исследованиях

При стохастических связях между переменными величинами х и у каждому значению одной величины соответствует распределение другой. Это распределение меняется с изменением первой величины, причём меняются варианты и частоты.
Рассмотрим пример: получено распределение 100 га пахотной земли по количеству внесённых удобрений х (в центнерах на 1 га) и по урожайности у (в центнерах на 1 га), указанное в таблице

	у_j ц. с га
x _i ц. на га

Итого

100

В таблице показано, на скольких гектарах внесено количество удобрений и получена урожайность.
Найдём групповые средние арифметические урожайности при внесении соответствующего количества удобрений на гектар

Найдём уравнение прямой y = a + b·x, для которой величина

принимает минимальное значение.
В выражении функции S величины n_ix равны

n _ix

Применяя необходимое условие экстремума функции двух переменных

получим систему двух линейных уравнений

. относительно искомых параметров a и b. Для рассматриваемой задачи эта система имеет вид

и решением её будет {b = 9,8, a = 0,11}.

Расположение точек с координатами (x_i, y_i), i = 1, … , 4 и прямой регрессии указаны на рисунке

Если искать зависимость x = c·y + d, то функция, для которой ищется минимум, имеет вид

. Причём величины n _iy равны

n _iy

Необходимые условия минимума функции S₁ приводят к уравнениям вида

которые имеют решение {d = -45,23, c = 6}.

Расположение точек с координатами (x_i, y_i), i = 1, … , 6 и прямой регрессии указаны на рисунке.

Пример

Найти коэффициент корреляции.

X	Y	X ²	Y ²	X·Y

Применение теории корреляции

Теория корреляции используется для решения задач построения обоснованного прогноза, то есть указания пределов, в которых с наперёд заданной надёжностью будет содержаться интересующая нас величина, если другие связанные с ней величины получают определённые значения. К примеру, нас может интересовать влияние на качество изделия биение оборудования, температура воздуха в помещении, состав персонала и многое другое. Эти, и многие другие задачи могут быть решены в рамках теории корреляции.

Вопросы для самопроверки

Какая связь между случайными величинами называется стохастической?
Что называется линией регрессии?
Какой механический смысл имеет линия регрессии?
Какой смысл условной дисперсии?
Как выражается условная дисперсия для дискретной и непрерывной случайных величин?
Какая величина является мерой рассеяния одной случайной величины при фиксированном значении другой величины?
Какая величина называется средним взвешенным значением из условных дисперсий?
Каким минимизирующим свойством обладают линии регрессии?
Что принимается в качестве меры концентрации распределения вероятности около линии с заданным уравнением?
Какой системе должны удовлетворять параметры линии, чтобы мера концентрации вероятности относительно заданной линии была наименьшей?