Вариация, размах, межквартильный размах, среднее линейное отклонение

Межквартильный размах

В статистике для анализа выборки часто прибегают к другому показателю вариации – межквартильному размаху. Квартиль – это то значение, которые делит ранжированные (отсортированные) данные на части, кратные одной четверти, или 25%. Так, 1-й квартиль – это значение, ниже которого находится 25% совокупности. 2-й квартиль делит совокупность данных пополам (то бишь медиана), ну и 3-й квартиль отделяет 25% наибольших значений. Так вот межквартильный размах – это разница между 3-м и 1-м квартилями. У данного показателя есть одно неоспоримое преимущество: он является робастным, т.е. не зависит от аномальных отклонений.

Наглядное отображение размаха вариации и межкварительного расстояния производят с помощью диаграммы «ящик с усами».

Дисперсия

Дисперсия случайной величины – это один из основных показателей в статистике. Он отражает меру разброса данных вокруг средней арифметической.

Сейчас небольшой экскурс в теорию вероятностей, которая лежит в основе математической статистики

Как и матожидание, дисперсия является важной характеристикой случайной величины. Если матожидание отражает центр случайной величины, то дисперсия дает характеристику разброса данных вокруг центра

Формула дисперсии в теории вероятностей имеет вид:

То есть дисперсия — это математическое ожидание отклонений от математического ожидания.

На практике при анализе выборок математическое ожидание, как правило, не известно. Поэтому вместо него используют оценку – среднее арифметическое. Расчет дисперсии производят по формуле:

где

s2 – выборочная дисперсия, рассчитанная по данным наблюдений,

X – отдельные значения,

X̅– среднее арифметическое по выборке.

Стоит отметить, что у такого расчета дисперсии есть недостаток – она получается смещенной, т.е. ее математическое ожидание не равно истинному значению дисперсии. Подробней об этом здесь. Однако при увеличении объема выборки она все-таки приближается к своему теоретическому аналогу, т.е. является асимптотически не смещенной.

Простыми словами дисперсия – это средний квадрат отклонений. То есть вначале рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, складывается и затем делится на количество значений в данной совокупности. Разница между отдельным значением и средней отражает меру отклонения. В квадрат возводится для того, чтобы все отклонения стали исключительно положительными числами и чтобы избежать взаимоуничтожения положительных и отрицательных отклонений при их суммировании. Затем, имея квадраты отклонений, просто рассчитываем среднюю арифметическую. Средний – квадрат – отклонений. Отклонения возводятся в квадрат, и считается средняя. Теперь вы знаете, как найти дисперсию.

Среднее арифметическое

Вероятно, большинство из вас использовало такую важную описательную статистику, как среднее.

Среднее — очень информативная мера «центрального положения» наблюдаемой переменной, особенно если сообщается ее доверительный интервал. Исследователю нужны такие статистики, которые позволяют сделать вывод относительно популяции в целом. Одной из таких статистик является среднее.

Доверительный интервал для среднего представляет интервал значений вокруг оценки, где с данным уровнем доверия, находится «истинное» (неизвестное) среднее популяции.

Например, если среднее выборки равно 23, а нижняя и верхняя границы доверительного интервала с уровнем p=.95 равны 19 и 27 соответственно, то можно заключить, что с вероятностью 95% интервал с границами 19 и 27 накрывает среднее популяции.

Если вы установите больший уровень доверия, то интервал станет шире, поэтому возрастает вероятность, с которой он «накрывает» неизвестное среднее популяции, и наоборот.

Хорошо известно, например, что чем «неопределенней» прогноз погоды (т.е. шире доверительный интервал), тем вероятнее он будет верным. Заметим, что ширина доверительного интервала зависит от объема или размера выборки, а также от разброса (изменчивости) данных. Увеличение размера выборки делает оценку среднего более надежной. Увеличение разброса наблюдаемых значений уменьшает надежность оценки.

Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. Если это предположение не выполнено, то оценка может оказаться плохой, особенно для малых выборок.

При увеличении объема выборки, скажем, до 100 или более, качество оценки улучшается и без предположения нормальности выборки.

Довольно трудно «ощутить» числовые измерения, пока данные не будут содержательно обобщены. Диаграмма часто полезна в качестве отправной точки. Мы можем также сжать информацию, используя важные характеристики данных. В частности, если бы мы знали, из чего состоит представленная величина, или если бы мы знали, насколько широко рассеяны наблюдения, то мы бы смогли сформировать образ этих данных.

Среднее арифметическое, которое очень часто называют просто «среднее», получают путем сложения всех значений и деления этой суммы на число значений в наборе.

Это можно показать с помощью алгебраической формулы. Набор n наблюдений переменной X можно изобразить как X1, X2, X3, …, Xn. Например, за X можно обозначить рост индивидуума (см), X1 обозначит рост 1-го индивидуума, а Xi — рост i-го индивидуума. Формула для определения среднего арифметического наблюдений (произносится «икс с чертой»):

= 1 + Х2 + … + Xn) / n

Можно сократить это выражение:

где (греческая буква «сигма») означает «суммирование», а индексы внизу и вверху этой буквы означают, что суммирование производится от i = 1 до i = n. Это выражение часто сокращают еще больше:

или

Среднее геометрическое

При несимметричном распределении данных сред­нее арифметическое не будет обобщающим показа­телем распределения.

Если данные скошены вправо, то можно создать более симметричное распределе­ние, если взять логарифм (по основанию 10 или по основанию е) каждого значения переменной в наборе данных. Среднее арифметическое значений этих логарифмов — характеристика распределения для преобразованных данных.

Чтобы получить ме­ру с теми же единицами измерения, что и первона­чальные наблюдения, нужно осуществить обратное преобразование — потенцирование (т. е. взять анти­логарифм) средней логарифмированных данных; мы называем такую величину среднее геометрическое.

Если распределение данных логарифма приблизитель­но симметричное, то среднее геометрическое подобно медиане и меньше, чем среднее необработанных дан­ных.

Коэффициент вариации

Все показатели, рассмотренные выше, имеют привязку к масштабу исходных данных и не позволяют получить образное представление о вариации анализируемой совокупности. Для получения относительной меры разброса данных используют коэффициент вариации, который рассчитывается путем деления среднего квадартического отклонения на среднее арифметическое значение. Математическая формула такова:

В Экселе нет готовой функции для расчета коэффициента вариации, что не есть большая проблема. Расчет можно произвести простым делением стандартного отклонения на среднее значение. Для этого в строке формул пишем:

В скобках должен быть указан диапазон данных. При необходимости используется среднее квадратическое отклонение по выборке (СТАНДОТКЛОН.В).

Коэффициент вариации обычно выражается в процентах, поэтому ячейку с формулой можно обрамить процентным форматом. Нужная кнопка находится на ленте на закладке «Главная»:

Изменить формат также можно, выбрав «Формат ячеек» из выпадающего списка после выделения нужной ячейки правой кнопкой мышки.

Коэффициент вариации, в отличие от других показателей разброса значений, используется как самостоятельный и весьма информативный индикатор вариации данных. В статистике принято считать, что если коэффициент вариации менее 33%, то совокупность данных является однородной, если более 33%, то – неоднородной. Эта информация может быть полезна для предварительного описания данных и определения возможностей проведения дальнейшего анализа. Кроме того, коэффициент вариации, измеряемый в процентах, позволяет сравнивать степень разброса различных данных независимо от их масштаба и единиц измерений. Полезное свойство.

В целом, с помощью Excel все, или почти все, статистические показатели рассчитываются очень просто. Если что-то непонятно, всегда можно воспользоваться окошком для поиска в Мастере функций. Ну, и Гугл в помощь.

Максимальное и минимальное значение

Начнем с формул максимума и минимума. Что такое максимальное и минимальное значение, уверен, знают почти все. Максимум – самое большое значение из анализируемого набора данных, минимум – самое маленькое (может быть и отрицательным числом). Это крайние значения в совокупности данных, обозначающие границы их вариации. Примеры реального использования каждый может придумать сам – их полно. Это и минимальные/максимальные цены на что-нибудь, и выбор наилучшего или наихудшего решения задачи, и всего, чего угодно. Минимум и максимум – весьма информативные показатели. Давайте теперь их рассчитаем в Excel.

Как нетрудно догадаться, делается сие элементарно – как два клика об асфальт. В Мастере функций следует выбрать: МАКС – для расчета максимального значения, МИН – для расчета минимального значения. Для облегчения поиска перечень всех функций можно отфильтровать по категории «Статистические».

Выбираем нужную формулу, в следующем окошке указываем диапазон данных (в котором ищется максимальное или минимальное значение) и жмем «ОК».

Функции МАКС и МИН достаточно часто используются, поэтому разработчики Экселя предусмотрительно добавили соответствующие кнопки в ленту. Они находятся там же, где суммаи среднее значение – в разворачивающемся списке.

В общем, для вызова функции максимума или минимума действий потребуется не больше, чем для расчета средней арифметической. Все архипросто.

Шаги

Метод 1 из 1:

Построение гистограммы

1

Определите данные (значения). Например, постройте диаграмму, отображающую количество осадков (в мм) в период с февраля 2005 года по февраль 2006 года. Вам нужно найти количество осадков в каждом месяце.

2

Проведите ось Х и ось Y (в форме прямого угла). Выберите данные (диапазоны, периоды, т.п.), которые будут откладываться на оси категорий. Это те данные, которые откладываются по оси Х (ось категорий). Например, временные периоды откладываются по оси категорий. На другой оси будут откладываться значения (продажи, затраты, количество произведенной продукции, другие величины).

3

Промаркируйте ось Х. Разделите длину оси (или количество клеток, если вы используете бумаги в клетку) на количество прямоугольников, которые необходимо нарисовать, чтобы найти ширину каждого прямоугольника. Если вы получили десятичную дробь, округлите ее до ближайшего целого числа. Если прямоугольники соприкасаются, ставьте маркер на месте их соприкосновения. Если прямоугольники не соприкасаются, оставьте пустую клетку между парами прямоугольников и ставьте маркер (название, значение, диапазон) в центре каждого прямоугольника. В нашем примере промаркируйте ось Х названиями месяцев.

4

Промаркируйте ось Y. Разделите количество клеток над осью Х на самое большое число из ваших данных, чтобы вычислить единицу измерения каждой клетки. Если вы получили десятичную дробь, округлите ее до ближайшего целого числа. Точку пересечения осей обозначьте как «0». Поставьте маркеры со значениями: каждая клетка выше 0 увеличивается на полученное число. В нашем примере по оси Y откладываются миллиметры осадков, например, от 10 мм до 70 мм. В этом случае промаркируйте ось Y с шагом 10 (то есть 0, 10, 20, 30 и так далее).

5

Нарисуйте прямоугольники, начиная с оси Х до соответствующего значения на оси Y. Если значение находится между двумя маркерами, приблизительно определите, где его рисовать

Обратите внимание, что в нашем примере прямоугольники должны быть разделены, так как данные не непрерывны.

6

Интерпретируйте данные после построения гистограммы (их визуализации). Обратите внимание на следующее: Выбросы

Это значения, которые сильно отличаются от всех остальных. В нашем примере выбросом является значение «70 мм осадков», так как другие значения лежат между 0 и 40 мм осадков.
Разрывы. Это значения, равные нулю. В нашем примере в июле вообще не было осадков.
Частотность. Это значение, встречающееся чаще всех. В нашем примере значение «10 мм осадков» встречается в апреле, мае и июне.
Кластеры. Ищите скопление наибольших/наименьших значений. В нашем примере больше всего осадков выпало в феврале, марте и апреле 2005 года.

Советы

  • Можно построить более сложную гистограмму, если каждому диапазону соответствует два или более значений и поэтому каждому диапазону на оси категорий (ось Х) соответствует два или несколько прямоугольников. В этом случае в пустом пространстве между прямоугольниками дорисуйте еще одни (соответствующих значений, но другого цвета).
  • Гистограмму также можно сделать горизонтальной путем перестановки вертикальной и горизонтальной осей.
  • Бумага
  • Карандаш
  • Линейка

Расчет показателей вариации в Excel

Добрый день, уважаемые любители статистического анализа данных, а сегодня еще и программы Excel.

Проведение любого статанализа немыслимо без расчетов. И сегодня в рамках рубрики «Работаем в Excel» мы научимся рассчитывать показатели вариации. Теоретическая основа была рассмотрена ранее в ряде статей о вариации данных. Кстати, на этом указанная тема не закончилась, к выпуску планируются новые статьи – следите за рекламой! Однако сухая теория без инструментов реализации – вещь не сильно полезная. Поэтому по мере появления теоретических выкладок, я стараюсь не отставать с заметками о соответствующих расчетах в программе Excel.

Сегодняшняя публикация будет посвящена расчету в Excel следующих показателей вариации:

— максимальное и минимальное значение

— среднее линейное отклонение

— дисперсия (по генеральной совокупности и по выборке)

— среднее квадратическое отклонение (по генеральной совокупности и по выборке)

Факт возможности расчета упомянутых показателей в Excel свидетельствует о практическом их использовании. И, несмотря на очевидность некоторых моментов, я постараюсь расписать все подробно.

Среднеквадратическое отклонение, стандартное отклонение выборки

Среднеквадратическое отклоне­ние — это положительный квадратный корень из .

Стандартное отклонение выборки — корень из выборочной дисперсии:

Мы можем представить себе стандартное отклоне­ние как своего рода среднее отклонение наблюдений от среднего. Оно вычисляется в тех же единицах (размерностях), что и исходные данные.

Если разделить стандартное отклонение на сред­нее арифметическое и выразить результат в процен­тах, получится коэффициент вариации.

Он являет­ся мерой рассеяния, не зависит от единиц измерения (безразмерный), но имеет некоторые теоретические не­удобства и поэтому не очень одобряется статистиками.

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Мастер по всему
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: