Правило Стерджеса Объяснение, приложения и примеры
Правило Стерджеса является критерием, используемым для определения количества классов или интервалов, необходимых для графического представления набора статистических данных. Это правило было провозглашено в 1926 году немецким математиком Гербертом Стерджесом..
Стерджес предложил простой метод, основанный на количестве выборок x, который позволил найти количество классов и их амплитуду диапазона. Правило Стерджеса широко используется, особенно в области статистики, особенно для построения частотных гистограмм..
индекс
- 1 Объяснение
- 2 Приложения
- 3 Пример
- 4 Ссылки
объяснение
Правило Sturges - это эмпирический метод, широко используемый в описательной статистике для определения количества классов, которые должны существовать в частотной гистограмме, чтобы классифицировать набор данных, представляющих выборку или совокупность.
В основном это правило определяет ширину графических контейнеров, частоту гистограмм.
Для установления своего правила Герберт Стерджес рассмотрел идеальную частотную диаграмму, которая состоит из K интервалов, где i-й интервал содержит определенное количество выборок (i = 0, ... k - 1), представленное в виде:
Это количество выборок задается количеством способов, которыми можно извлечь подмножество набора; то есть с помощью биномиального коэффициента, выраженного следующим образом:
Чтобы упростить выражение, он применил свойства логарифмов в обеих частях уравнения:
Таким образом, Стерджес установил, что оптимальное количество интервалов k задается выражением:
Это также может быть выражено как:
В этом выражении:
- k - количество классов.
- N - общее количество наблюдений образца.
- Лог - общий логарифм основания 10.
Например, чтобы создать частотную гистограмму, которая выражает случайную выборку роста 142 детей, количество интервалов или классов, которые будут иметь распределение, будет:
k = 1 + 3322 * журнал10 (N)
k = 1 + 3322* журнал (142)
k = 1 + 3322* 2,1523
k = 8,14 ≈ 8
Таким образом, распределение будет в 8 интервалах.
Количество интервалов всегда должно быть представлено целыми числами. В случаях, когда значение является десятичным, должно быть сделано приближение к ближайшему целому числу.
приложений
Правило Sturges применяется в основном в статистике, поскольку оно позволяет производить распределение частот посредством вычисления количества классов (k), а также длины каждого из них, также известного как амплитуда..
Амплитуда представляет собой разницу между верхним и нижним пределами класса, разделенную на количество классов, и выражается:
Существует много эмпирических правил, позволяющих производить распределение частот. Однако правило Стерджеса обычно используется, потому что оно приближает количество классов, которое обычно колеблется от 5 до 15.
Таким образом, рассмотрите значение, которое адекватно представляет образец или популяцию; то есть аппроксимация не представляет экстремальных группировок и не работает с чрезмерным количеством классов, которые не позволяют обобщить выборку.
пример
Необходимо выполнить частотную гистограмму в соответствии с приведенными данными, соответствующими возрастам, полученным при опросе мужчин, выполняющих упражнения в местном спортивном зале..
Чтобы определить интервалы, вы должны знать, каков размер выборки или количество наблюдений; в этом случае у вас есть 30.
Тогда правило Стерджеса применяется:
k = 1 + 3322 * журнал10 (N)
k = 1 + 3322* журнал (30)
k = 1 + 3322* 1,4771
k = 5,90 ≈ 6 интервалов.
Из числа интервалов можно рассчитать их амплитуду; то есть ширина каждого столбца, представленного в частотной гистограмме:
Нижний предел считается самым низким значением данных, а верхний предел - самым высоким значением. Разница между верхним и нижним пределом называется диапазоном или путем переменной (R).
Из таблицы видно, что верхний предел равен 46, а нижний - 13; таким образом, амплитуда каждого класса будет:
Интервалы будут состоять из верхнего и нижнего предела. Чтобы определить эти интервалы, начните отсчет с нижнего предела, добавив к нему амплитуду, определяемую правилом (6), следующим образом:
Затем рассчитывается абсолютная частота, чтобы определить количество мужчин, соответствующих каждому интервалу; в этом случае это:
- Интервал 1: 13 - 18 = 9
- Интервал 2: 19 - 24 = 9
- Интервал 3: 25 - 30 = 5
- Интервал 4: 31 - 36 = 2
- Интервал 5: 37 - 42 = 2
- Интервал 6: 43 - 48 = 3
При добавлении абсолютной частоты каждого класса она должна быть равна общему количеству выборки; в этом случае 30.
Затем вычисляется относительная частота каждого интервала, деля абсолютную частоту этого интервала на общее количество наблюдений:
- Интервал 1: fi = 9 ÷ 30 = 0,30
- Интервал 2: fi = 9 ÷ 30 = 0,30
- Интервал 3: fi = 5 ÷ 30 = 0,1666
- Интервал 4: fi = 2 ÷ 30 = 0,0666
- Интервал 5: fi = 2 ÷ 30 = 0,0666
- Интервал 4: fi = 3 ÷ 30 = 0,10
Затем можно составить таблицу, отражающую данные, а также диаграмму относительной частоты относительно полученных интервалов, как это видно на следующих изображениях:
Таким образом, правило Sturges позволяет определить количество классов или интервалов, на которые можно разделить выборку, чтобы суммировать выборку данных посредством подготовки таблиц и графиков..
ссылки
- Альфонсо Уркиа, М. В. (2013). Моделирование и симуляция дискретных событий. UNED,.
- Альтман Наоми, М. К. (2015). «Простая линейная регрессия». Методы природы .
- Antúnez, R.J. (2014). Статистика в образовании. Цифровой UNID.
- Fox, J. (1997.). Прикладной регрессионный анализ, линейные модели и родственные методы. Публикации SAGE.
- Умберто Ллинаш Солано, C.R. (2005). Описательная статистика и вероятностные распределения. Университет Севера.
- Пантелеева О. В. (2005). Основы вероятности и статистики.
- О. Куель, М. О. (2001). Дизайн экспериментов: статистические принципы проектирования и анализа исследований. Thomson Editors.