Сегодня на уроке мы вспомним, что является модой, медианой и средним арифметическим выборки. Узнаем, что называется размахом выборки. Выясним, что называют отклонением от среднего. Познакомимся с величиной, которую называют дисперсией. Узнаем, что называют средним квадратичным отклонением.
Прежде, чем приступить к рассмотрению новой темы, давайте вспомним, что совокупность данных иногда бывает полезно оценить одним числом – мерой центральной тенденции числовых значений её элементов. К таким характеристикам относятся мода, медиана и среднее.
Итак, мода – это значение случайной величины, имеющее наибольшую частоту в рассматриваемой выборке.
Медиана – это число (значение случайной величины), разделяющее упорядоченную выборку на две равные по количеству данных части.
При этом если в упорядоченной выборке нечётное количество данных, то медиана равна серединному из них. Если в упорядоченной выборке чётное количество данных, то медиана равна среднему арифметическому двух серединных чисел.
Среднее (или среднее
арифметическое) выборки – это число, равное отношению суммы всех чисел
выборки к их количеству. Если рассматривается совокупность значений случайной
величины , то её
среднее обозначают
.
Отметим, что не каждую выборку имеет смысл оценивать с помощью центральных тенденций.
Так, например, посмотрите на следующую выборку ,
,
,
Это выборка выигрышей (в рублях) четырёх человек. Здесь мода равна
. Медиана
также равна
. Среднее
равно
.
Очевидно, что ни мода, ни медиана, ни среднее не могут выступать в
роли единой объективной характеристики данной выборки. Это объясняется тем, что
наименьшие значения этой выборки существенно отличаются от наибольшего. А вот
разность наибольшего и наименьшего значений соизмерима с наибольшим значением ().
Сформулируем определение. Разность наибольшего и наименьшего значений случайной величины выборки называется её размахом и обозначается буквой R.
Для рассматриваемой выборки размах равен разности и
, то есть
равен
.
Размах показывает, насколько велик разброс значений случайной величины в выборке. Однако, зная размах выборки, невозможно охарактеризовать отличие её элементов друг от друга, отличие каждого элемента от среднего значения.
А как сравнить две выборки, которые имеют одинаковые размахи и одинаковые средние значения?
Давайте рассмотрим пример. На место столяра претендуют двое рабочих. Для каждого из них установили испытательный срок, в течение которого они должны изготавливать одинаковые стулья из дерева. В следующей таблице приведены результаты претендентов.
Каждый из рабочих за пять дней изготовил деталей. Следовательно, средняя производительность труда за день у
обоих рабочих одинаковая и равна
стульев в
день.
Моды у предложенных совокупностей отсутствуют. Чтобы найти медианы, расположим значения в порядке возрастания.
,
,
,
,
;
,
,
,
,
.
Количество данных в обоих случаях нечётно. Слева и справа от числа
находятся по
два элемента. Получается, что медианы одинаковые (
и
).
В качестве критерия сравнения совокупностей в данном случае может выступать стабильность производительности труда. Её можно оценить с помощью отклонений от среднего значения элементов совокупности.
Давайте сформулируем определение. Отклонением от среднего называют разность между рассматриваемым значением случайной величины и средним значением выборки.
Например, если значение , а значение
, то
отклонение
от среднего
равно
.
Отклонение от среднего может быть как положительным, так и отрицательным.
Найдём отклонение от среднего и внесём найденные значения в таблицу.
Покажем на нашем примере, что сумма отклонений всех значений
выборки от среднего значения равна .
,
.
Поэтому характеристикой стабильности элементов совокупности может служить сумма квадратов отклонений от среднего.
Давайте найдём квадраты отклонений от среднего и суммы квадратов отклонений.
Видим, что у второго рабочего сумма квадратов отклонений от
среднего больше, чем у первого, то есть можно записать неравенство .
На практике это означает, что второй рабочий имеет нестабильную производительность труда: в какие-то дни он работает не в полную силу, а какие-то навёрстывает упущенное, а это всегда сказывается на качестве продукции.
Получается, что работодатель захочет взять на место столяра первого рабочего, ведь у первого рабочего сумма квадратов отклонений от средней производительности меньше.
В рассмотренном примере рабочие работали одинаковое количество
дней. Если бы рабочие работали разное количество дней и производили в среднем
за день одинаковое число деталей, то стабильность работы каждого из них можно
было бы оценить по величине среднего арифметического квадратов отклонений.
Такая величина называется дисперсией, что в переводе с латинского
означает «рассеяние», и обозначается буквой .
Для случайной величины , принимающей
различных
значений и имеющей среднее значение
, дисперсия
находится по формуле
Давайте решим задачу. Два столяра изготавливали одинаковые
стулья из дерева. При этом первый столяр трудился полную рабочую неделю, а
второй – дня.
Сведения об их дневной выработке представлены в таблице. Сравните стабильность
работы столяров.
Итак, найдём средние значения выборок данных величин X и Y.
,
.
Таким образом, мы получили, что найденные значения равны.
Далее найдём отклонения от среднего для всех значений величин X и Y.
Затем найдём квадраты отклонений от среднего. Найдём сумму квадратов отклонений от среднего всех значений величин X и Y.
Теперь найдём дисперсию совокупности значений случайной величины X, то есть среднее арифметическое квадратов отклонений.
Найдём дисперсию совокупности значений случайной величины Y.
Таким образом мы получили, что .
Следовательно, второй столяр работает стабильнее первого.
Отметим, что если значения ,
, …,
случайной
величины
повторяются
с частотами
,
, …,
соответственно,
то дисперсию величины
можно
вычислить по формуле
,
где .
Используя знак суммы Ʃ, данную формулу можно записать более компактно.
, где
.
Пусть величина имеет
некоторую размерность (например, миллиметры). Тогда её среднее значение
и отклонение
от среднего
имеют ту же
размерность, что и сама величина (в миллиметрах). А вот квадрат отклонения
и дисперсия
имеют
размерности квадрата этой величины (в квадратных миллиметрах).
Для оценки степени отклонения от среднего значения удобно иметь
дело с величиной той же размерности, что и сама величина . С этой
целью используются значения
.
Сформулируем определение. Корень квадратный из дисперсии называют средним
квадратичным отклонением и обозначают , то есть
.
Давайте найдём среднее квадратичное отклонение от среднего значения выборки:
см,
см,
см,
см,
см.
Вообще, дисперсию и среднее квадратичное отклонение в статистике называют также мерами рассеивания значений случайной величины около среднего значения.