Центральные тренды для сгруппированных данных



показатели центральной тенденции сгруппированных данных они используются в статистике для описания определенного поведения группы представленных данных, например того, к чему они близки, каково среднее значение собранных данных, среди других.

Когда берется большой объем данных, полезно сгруппировать их, чтобы иметь лучший порядок их и, таким образом, иметь возможность рассчитать определенные показатели центральной тенденции.

Среди показателей центральной тенденции наиболее часто используются среднее арифметическое, медиана и мода. Эти числа говорят определенные качества о данных, собранных в определенном эксперименте.

Чтобы использовать эти меры, необходимо сначала знать, как сгруппировать набор данных.

Сгруппированные данные

Чтобы сначала сгруппировать данные, вы должны рассчитать диапазон данных, который получается путем вычитания наибольшего значения минус самое низкое значение данных..

Затем выберите число «k», которое является количеством классов, в которые вы хотите сгруппировать данные.

Перейдем к разделению диапазона между «k», чтобы получить амплитуду классов, которые будут сгруппированы. Это число C = R / k.

Наконец начинается группировка, для которой выбирается меньшее число, чем наименьшее значение из полученных данных..

Это число будет нижней границей первого класса. К этому добавляется C. Полученное значение будет верхним пределом первого класса..

Затем C добавляется к этому значению и получается верхний предел второго класса. Таким образом, вы продолжите, пока не получите верхний предел последнего класса.

После того, как данные сгруппированы, вы можете приступить к вычислению среднего значения, медианы и моды..

Чтобы проиллюстрировать, как вычисляются среднее арифметическое, медиана и мода, мы продолжим с примером.

пример

Поэтому при группировке данных вы получите таблицу, подобную следующей:

3 основных центральных направления

Теперь мы продолжим вычислять среднее арифметическое, медиану и моду. Приведенный выше пример будет использован для иллюстрации этой процедуры..

1- среднее арифметическое

Среднее арифметическое состоит из умножения каждой частоты на среднее значение интервала. Затем все эти результаты добавляются и, наконец, делятся на общие данные.

Используя предыдущий пример, мы получили бы, что среднее арифметическое равно:

(4 * 2 + 4 * 4 + 6 * 6 + 4 * 8) / 18 = (8 + 16 + 36 + 32) / 18 = 511111

Это указывает на то, что среднее значение данных в таблице равно 5.11111..

2- Средний

Чтобы вычислить медиану набора данных, сначала все данные упорядочены от наименьшего к наибольшему. Можно представить два случая:

- Если номер данных нечетный, то медиана - это данные, которые находятся прямо в центре.

- Если число данных четное, то медиана - это среднее значение двух данных, оставшихся в центре.

Когда дело доходит до сгруппированных данных, вычисление медианы выполняется следующим образом:

- N / 2 рассчитывается, где N - суммарные данные.

- Первый интервал ищется, когда накопленная частота (сумма частот) больше, чем N / 2, и выбирается нижний предел этого интервала, называемый Li..

Медиана определяется по следующей формуле:

Me = Li + (Ls-Li) * (N / 2 - накопленная частота до Li) / частота [Li, Ls)

Ls - верхний предел указанного выше диапазона.

Если используется приведенная выше таблица данных, мы имеем N / 2 = 18/2 = 9. Накопленные частоты равны 4, 8, 14 и 18 (по одной для каждой строки таблицы)..

Поэтому следует выбирать третий интервал, поскольку накопленная частота больше, чем N / 2 = 9.

Итак, Li = 5 и Ls = 7. Применяя формулу, описанную выше, вы должны:

Me = 5 + (7-5) * (9-8) / 6 = 5 + 2 * 1/6 = 5 + 1/3 = 16/3 ≈ 5,3333.

3- Мода

Мода - это значение, имеющее наибольшую частоту среди всех сгруппированных данных; то есть это значение, которое повторяется чаще всего в исходном наборе данных.

Если у вас очень большой объем данных, для расчета режима сгруппированных данных используется следующая формула:

Mo = Li + (Ls-Li) * (частота Li - частота L (i-1)) / ((частота Li-частоты L (i-1)) + (частота Li-частоты L ( я + 1)))

Интервал [Li, Ls) - это интервал, в котором находится самая высокая частота. Для примера, сделанного в этой статье, у нас есть такая мода:

Мо = 5 + (7-5) * (6-4) / ((6-4) + (6-4)) = 5 + 2 * 2/4 = 5 + 1 = 6.

Другая формула, которая используется для получения приблизительного значения моды, следующая:

Mo = Li + (Ls-Li) * (частота L (i + 1)) / (частота L (i-1) + частота L (i + 1)).

С этой формулой счета следующие:

Мо = 5 + (7-5) * 4 / (4 + 4) = 5 + 2 * 4/8 = 5 + 1 = 6.

ссылки

  1. Bellhouse, D.R. (2011). Авраам Де Моивр: создание условий для классической вероятности и ее применения. CRC Press.
  2. Сифуэнтес, J.F. (2002). Введение в теорию вероятностей. Унив. Гражданин Колумбии.
  3. Дастон Л. (1995). Классическая вероятность в эпоху Просвещения. Издательство Принстонского университета.
  4. Ларсон, Х.Дж. (1978). Введение в теорию вероятностей и статистический вывод. Редакция Лимуса.
  5. Мартель, П.Дж., & Вегас, Ф.Дж. (1996). Вероятностная и математическая статистика: приложения в клинической практике и управлении здоровьем. Ediciones Díaz de Santos.
  6. Васкес, А. Л. и Ортис, Ф. Дж. (2005). Статистические методы измерения, описания и контроля изменчивости. Эд. Университет Кантабрии.
  7. Васкес, С. Г. (2009). Пособие по математике для доступа в университет. Редакционный центр исследований Ramon Areces SA.