Меню
Видеоучебник

Рассеивание числовых данных

Урок 13. Математика. Вероятность и статистика. 8 класс

В уроке напоминаем, что называется описательной статистикой. Говорим о средних значениях, которые используют для описания числовых массивов. Выясняем, что такое рассеивание числовых данных. Рассматриваем пример.

Конспект урока "Рассеивание числовых данных"

Раздел статистики, который занимается сбором, обработкой, анализом и представлением данных в удобной форме, называется описательной статистикой.

Чтобы одним числом охарактеризовать весь числовой массив используют различные средние значения. Какое именно среднее лучше выбрать для описания того или иного набора данных, зависит от природы данных, целей исследования и сложившихся традиций.

Напомним, что средним арифметическим числового массива называется отношение суммы всех чисел массива к их количеству. Другими словами, среднее арифметическое – это дробь, в числителе которой стоит сумма чисел, а в знаменателе – их количество.

Среднее арифметическое хорошо описывает однородные массивы данных, то есть массивы, в которых величины имеют один и тот же смысл, и нет значений, которые сильно отличаются от большинства.

Если в числовом наборе встречаются выбросы, то есть одно или несколько чисел, которые намного больше или намного меньше всех остальных, то в качестве центральной меры часто используют медиану.

Чтобы найти медиану числового массива, в первую очередь нужно упорядочить набор чисел по возрастанию. В результате чего получится вариационный ряд.

Если в массиве нечётное количество чисел, то медианой является число, стоящее посередине вариационного ряда.

Если в массиве чётное количество чисел, то медианой обычно считают среднее арифметическое двух чисел, стоящих посередине.

Важно отметить, что если в массиве чётное количество чисел, то медиан у такого массива много – два средних числа и все числа, заключённые между ними.

Медианой числового массива называется такое число , что хотя бы половина чисел массива не больше числа  и хотя бы половина чисел массива не меньше числа .

Сформулированное определение точно говорит, что такое медиана, но использовать его для нахождения медианы неудобно. Чтобы найти медиану, нужно упорядочить числа и найти одно или два числа, стоящие посередине вариационного ряда.

Пусть всего в ряду  чисел.

Если  нечётно, то медианой будет число с порядковым номером .

Если  чётно, то медианой будет любое из чисел с номерами  и  
или любое число между ними.

 

Но чаще всего в качестве медианы берут среднее арифметическое чисел с этими номерами. Иногда бывают нужны такие значения, характеризующие набор данных, как наименьшее и наибольшее значения.

Например, нам часто интересно, какова наименьшая цена на нужный товар, а увидев новый автомобиль, мы интересуемся, какую наибольшую скорость он может развить.

Часто бывает нужно иметь представление о том, насколько числа в наборе отличаются друг от друга или от среднего значения. Самой простой характеристикой, описывающей рассеивание данных, является размах.

Размах числового массива – это разность между наибольшим и наименьшим значениями.

Размах легко найти, но у него есть серьёзный недостаток: он опирается только на наименьшее и наибольшее значения, которые неустойчивы, то есть могут быть нетипичными или даже ошибочными. Поэтому и размах – неустойчивая мера.

Для того чтобы лучше описать рассеивание данных, обычно используются другие меры рассеивания. Но прежде чем говорить о них, давайте более подробно поговорим о рассеивание числовых данных.

Итак, на следующем рисунке схематично показаны два набора чисел, у которых примерно одинаковое среднее значение. Однако сгруппированы значения по-разному.

У первого набора значения «тяготеют» к краям промежутка. И только три точки находятся посередине. А вот во втором наборе почти все точки сгруппированы вблизи середины. И только две расположены по краям. Эти два набора отличаются друг от друга рассеиванием.

Если данные сильно рассеяны, то многие значения удалены от среднего. При малом рассеивании большинство значений расположено близко друг к другу или к среднему. В этом случае изменчивость небольшая.

Рассеивание – это свойство числовых массивов, которое нуждается в математическом представлении.

Пример. Оля и Лена живут в одном доме и учатся в одной школе. Занятия в школе начинаются в 8 ч 15 мин. Каждое утро Оля выходит из дома ровно в 7 ч 45 мин и идёт в школу пешком. Лена каждое утро выходит из дома в 7 ч 40 мин и идёт к остановке автобуса. На автобусе до школы всего одна остановка.

В таблице показано время прихода в школу Оли и Лены. Данная выборка сделана в разные случайные дни.

Давайте внимательно посмотрим на время прихода в школу Оли. Видим, что она тратит на дорогу всегда примерно около 20 мин.

Посмотрим на время прихода в школу Лены. Видим, что бывает, когда она добирается до школы быстро – её лучшее время 10 мин. Но случается, что она опаздывает на первый урок.

Не делая никаких вычислений, можно сказать, что рассеивание данных во втором наборе данных больше. А всё потому, что время, которое тратит на дорогу Лена, зависит от времени ожидания на остановке автобуса и от времени, которое тратит автобус, чтобы проехать одну остановку. Если автобус по какой-то причине задерживается или стоит в пробке, то девочка рискует опоздать на первый урок.

Так как Оля не пользуется автобусом, то время, которое она тратит на дорогу, зависит только от скорости ходьбы. А она примерно одинакова во все дни. Вот только, например, в гололёд она будет значительно ниже. Обратите внимание, что один раз Оля пришла в школу позже обычного. Может быть, в этот день и был гололёд, а может она встретила по дороге что-то необычное и задержалась.

Для измерения рассеивания, конечно, можно использовать размах. Размах времени, которое занимает дорога в школу у Оли, равен 8 мин, а у Лены – 26 мин.

Снова отметим, что размах – это не самая лучшая мера рассеивания. Давайте вернёмся к рисунку, который мы рассмотрели выше.

Видим, что рассеивание у первого числового набора больше, но размах практически одинаковый. А всё потому, что размах – это разность между наибольшим и наименьшим значениями, которые, как мы знаем, могут оказаться нетипичными (или неустойчивыми).

Чаще всего для описания и измерения рассеивания используются дисперсия и стандартное отклонение, которые учитывают все значения в данном массиве и поэтому меньше подвержены влиянию отдельных значений. Для графического изображения рассеивания применяются диаграммы рассеивания.

До встречи на следующих занятиях!

1459

Комментарии 0

Чтобы добавить комментарий зарегистрируйтесь или на сайт