Правило Стерджеса Объяснение, приложения и примеры



Правило Стерджеса является критерием, используемым для определения количества классов или интервалов, необходимых для графического представления набора статистических данных. Это правило было провозглашено в 1926 году немецким математиком Гербертом Стерджесом..

Стерджес предложил простой метод, основанный на количестве выборок x, который позволил найти количество классов и их амплитуду диапазона. Правило Стерджеса широко используется, особенно в области статистики, особенно для построения частотных гистограмм..

индекс

  • 1 Объяснение
  • 2 Приложения
  • 3 Пример
  • 4 Ссылки

объяснение

Правило Sturges - это эмпирический метод, широко используемый в описательной статистике для определения количества классов, которые должны существовать в частотной гистограмме, чтобы классифицировать набор данных, представляющих выборку или совокупность.

В основном это правило определяет ширину графических контейнеров, частоту гистограмм.

Для установления своего правила Герберт Стерджес рассмотрел идеальную частотную диаграмму, которая состоит из K интервалов, где i-й интервал содержит определенное количество выборок (i = 0, ... k - 1), представленное в виде:

Это количество выборок задается количеством способов, которыми можно извлечь подмножество набора; то есть с помощью биномиального коэффициента, выраженного следующим образом:

Чтобы упростить выражение, он применил свойства логарифмов в обеих частях уравнения:

Таким образом, Стерджес установил, что оптимальное количество интервалов k задается выражением:

Это также может быть выражено как:

В этом выражении:

- k - количество классов.

- N - общее количество наблюдений образца.

- Лог - общий логарифм основания 10.

Например, чтобы создать частотную гистограмму, которая выражает случайную выборку роста 142 детей, количество интервалов или классов, которые будут иметь распределение, будет:

k = 1 + 3322 * журнал10 (N)

k = 1 + 3322* журнал (142)

k = 1 + 3322* 2,1523

k = 8,14 ≈ 8

Таким образом, распределение будет в 8 интервалах.

Количество интервалов всегда должно быть представлено целыми числами. В случаях, когда значение является десятичным, должно быть сделано приближение к ближайшему целому числу.

приложений

Правило Sturges применяется в основном в статистике, поскольку оно позволяет производить распределение частот посредством вычисления количества классов (k), а также длины каждого из них, также известного как амплитуда..

Амплитуда представляет собой разницу между верхним и нижним пределами класса, разделенную на количество классов, и выражается:

Существует много эмпирических правил, позволяющих производить распределение частот. Однако правило Стерджеса обычно используется, потому что оно приближает количество классов, которое обычно колеблется от 5 до 15.

Таким образом, рассмотрите значение, которое адекватно представляет образец или популяцию; то есть аппроксимация не представляет экстремальных группировок и не работает с чрезмерным количеством классов, которые не позволяют обобщить выборку.

пример

Необходимо выполнить частотную гистограмму в соответствии с приведенными данными, соответствующими возрастам, полученным при опросе мужчин, выполняющих упражнения в местном спортивном зале..

Чтобы определить интервалы, вы должны знать, каков размер выборки или количество наблюдений; в этом случае у вас есть 30.

Тогда правило Стерджеса применяется:

k = 1 + 3322 * журнал10 (N)

k = 1 + 3322* журнал (30)

k = 1 + 3322* 1,4771

k = 5,90 ≈ 6 интервалов.

Из числа интервалов можно рассчитать их амплитуду; то есть ширина каждого столбца, представленного в частотной гистограмме:

Нижний предел считается самым низким значением данных, а верхний предел - самым высоким значением. Разница между верхним и нижним пределом называется диапазоном или путем переменной (R).

Из таблицы видно, что верхний предел равен 46, а нижний - 13; таким образом, амплитуда каждого класса будет:

Интервалы будут состоять из верхнего и нижнего предела. Чтобы определить эти интервалы, начните отсчет с нижнего предела, добавив к нему амплитуду, определяемую правилом (6), следующим образом:

Затем рассчитывается абсолютная частота, чтобы определить количество мужчин, соответствующих каждому интервалу; в этом случае это:

- Интервал 1: 13 - 18 = 9

- Интервал 2: 19 - 24 = 9

- Интервал 3: 25 - 30 = 5

- Интервал 4: 31 - 36 = 2

- Интервал 5: 37 - 42 = 2

- Интервал 6: 43 - 48 = 3

При добавлении абсолютной частоты каждого класса она должна быть равна общему количеству выборки; в этом случае 30.

Затем вычисляется относительная частота каждого интервала, деля абсолютную частоту этого интервала на общее количество наблюдений:

- Интервал 1: fi = 9 ÷ 30 = 0,30

- Интервал 2: fi = 9 ÷ 30 = 0,30

- Интервал 3: fi = 5 ÷ 30 = 0,1666

- Интервал 4: fi = 2 ÷ 30 = 0,0666

- Интервал 5: fi = 2 ÷ 30 = 0,0666

- Интервал 4: fi = 3 ÷ 30 = 0,10

Затем можно составить таблицу, отражающую данные, а также диаграмму относительной частоты относительно полученных интервалов, как это видно на следующих изображениях:

Таким образом, правило Sturges позволяет определить количество классов или интервалов, на которые можно разделить выборку, чтобы суммировать выборку данных посредством подготовки таблиц и графиков..

ссылки

  1. Альфонсо Уркиа, М. В. (2013). Моделирование и симуляция дискретных событий. UNED,.
  2. Альтман Наоми, М. К. (2015). «Простая линейная регрессия». Методы природы .
  3. Antúnez, R.J. (2014). Статистика в образовании. Цифровой UNID.
  4. Fox, J. (1997.). Прикладной регрессионный анализ, линейные модели и родственные методы. Публикации SAGE.
  5. Умберто Ллинаш Солано, C.R. (2005). Описательная статистика и вероятностные распределения. Университет Севера.
  6. Пантелеева О. В. (2005). Основы вероятности и статистики.
  7. О. Куель, М. О. (2001). Дизайн экспериментов: статистические принципы проектирования и анализа исследований. Thomson Editors.