Ящик с усами



Не следует путать с японскими свечами. График 1. Результаты эксперимента Майкельсона-Морли График 2. Сравнение плотности распределения и Ящика с усами


Ящик с усами,
диаграмма размаха (англ.box-and-whiskers diagram or plot, box plot)— график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.

Такой вид диаграммы в удобной форме показывает медиану, нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим; их можно располагать как горизонтально, так и вертикально. Расстояния между различными частями ящика позволяют определить степень разброса (дисперсии) и асимметрии данных и выявить выбросы.

Содержание

  • 1 Компактность представления информации
  • 2 Построение
  • 3 Модификации ящика с усами
  • 4 Ссылки

Компактность представления информации

График ящик с усами, или ящичковая диаграмма, был разработан Джоном Тьюки в 1970-х годах. По сути, ящик с усами— это быстрый способ изучения одного или нескольких наборов данных в графическом виде. Этот график может показаться более примитивным, чем, например, гистограммы, но он имеет некоторые преимущества. Он занимает меньше места и поэтому особенно полезен для сравнения распределений между несколькими группами или наборами данных. Кроме того, ящик с усами в своей первоначальной форме прост для построения.

Если на третьем графике, где показаны плотности распределения, нельзя толком ничего рассмотреть и сравнить, то на четвертом графике, отображающем ящики с усами, легко можно оценить медианы, квартили, меру вариабельность (дисперсии) и асимметрию в данных, а также выявить выбросы. Асимметрию данных можно увидеть не только по медиане, смещённой к какому-либо концу ящика, но и по разной длине усов, выходящих из ящика.

График ящик с усами очень прост для понимания и именно поэтому часто используется в различных публикациях для визуализации данных. Построение

Границами ящика служат первый и третий квартили (25-й и 75-й процентили соответственно), линия в середине ящика— медиана (50-й процентиль). Концы усов— края статистически значимой выборки (без выбросов), и они могут определяться несколькими способами. Наиболее распространённые значения, определяющие длину усов:

  • Минимальное и максимальное наблюдаемые значения данных по выборке (в этом случае выбросы отсутствуют);
  • Разность первого квартиля и полутора межквартильных расстояний; сумма третьего квартиля и полутора межквартильных расстояний. В общем виде эта формула имеет вид
, ,

где — нижняя граница уса, — верхняя граница уса, — первый квартиль, — третий квартиль, — коэффициент, наиболее часто употребляемое значение которого равно 1,5.

  • Среднее арифметическое по выборке одно стандартное отклонение;
  • 9-й и 91-й процентили;
  • 2-й и 98-й процентили.

Данные, выходящие за границы усов (выбросы), отображаются на графике в виде точек, маленьких кружков или звёздочек. Иногда на графике отмечают среднее арифметическое и его доверительный интервал (зарубка на ящике). Иногда зарубками обозначают доверительный интервал для медианы.

В связи с тем, что не существует единого общего согласия относительно того, что считать основным методом построения ящика с усами, при виде такого графика необходимо искать информацию в сопроводительном тексте относительно того, по каким параметрам ящик с усами строился. Модификации ящика с усами

Несмотря на свою простоту и удобство, первоначальная форма ящика с усами обладает и некоторыми недостатками. Один из таких существенных недостатков— отсутствие на графике информации о количестве наблюдений по выборке. Действительно, ящик с усами позволяет сравнить медианы, квартили, минимумы и максимумы по различным выборкам, но если мы захотим сделать вывод об общей медиане по всей совокупности выборок, то мы не сможем этого сделать, не прибегая к расчётам на исходных данный. В 1978 году первоначальная форма ящика с усами была модифицирована МакГиллом, Ларсеном и Тьюки. Они предложили учитывать размер выборочной совокупности, рисуя ящики разного размера, а также изобразили на графике доверительный интервал для медиан в виде расходящихся клиньев. Чем больше ящик по размерам, тем больше количество наблюдений в выборке, по которой строился этот ящик. Что касается доверительного интервала, то он представляет собой выемки на каждом из ящиков; в случае, если получившиеся выемки разных ящиков не пересекаются, их медианы статистически значимо различаются.

Иная модификация получила название histplot (сокр. от histogram plot, график-гистограмма). Теперь на графике отображаются плотности распределения по трём точкам: медиане, первому и третьему квартилю. Соответственно, вместо прямоугольника, ящик теперь представляет собой две равнобедренные трапеции, имеющие смежное основание.

Дальнейшее изменение получило название histplot (сокр. от histogram plot, график-ваза) из-за визуального сходства ящика с вазой. На данном графике производится отображение всех плотностей вероятностей от первого до третьего квартиля. Затемнённые области представляют собой доверительный интервал медианы.



https://ru.wikipedia.org/wiki/Ящик_с_усами

Оставить комментарий

Новые сверху Старые сверху

ТОП 24

Форум

Все темы форума Добавить тему

Вход