Основы теории вероятностей. дисперсия случайной величины

Дисперсия

Дисперсия случайной величины есть характеристика рассеивания, разбросанности значений случайной величины около её математического ожидания.

\ = M — (M)^2 \]

Дисперсия неслучайной величины

\ = 0 \]

Доказательство:

По определению дисперсии:

\ = M  = M^2 ] = M = M = 0\]

Дисперсия суммы случайных величин

\ = D + D + 2*cov(X,Y) \]

Доказательство:

Обозначим \(XY = Z \).

По теореме сложения математических ожиданий:

\ = M + M \]

Перейдем от случайных величин \(X, Y, Z \).  к соответствующим центрированным величинам \(\stackrel{ \circ }{X}, \stackrel{ \circ }{Y}, \stackrel{ \circ }{Z} \), имеем:

\

По определению дисперсии

\ = D = M = M + 2M + M \\
= D + 2 cov(X,Y) + D \]

Дисперсия произведения неслучайной величины на случайную

\ = a^2 D\]

Доказательство:

По определению дисперсии

\ = M)^2] = M)^2] = a^2 M)^2] = c^2 D \]

Доказательство:

Обозначим \(XY = Z \). По определению дисперсии

\ = D = M = M]^2\]

Так как величины \(XY\) независимы, то \(M = MM\) и

\ = MM)^2] \\

= M — 2MMM+ M^2M^2 \]

При независимых  \(XY\) величины  \(X^2Y^2\) также независимы, следовательно:

\  = M M, M = MM\]

и

\ = MM — M^2M^2 \]

но \(M^2\) есть не что иное, как второй начальный момент величины \(X\) , и, следовательно, выражается через дисперсию:

\ = D+M^2 \]

аналогично

\ = D+M^2 \]

Подставляя эти выражения и приводя подобные члены, приходим к формуле

Виды дисперсии дискретной случайной величины

Для анализа данных цифр в таком виде недостаточно. Гораздо больше можно выжать из последовательности, если разбить ее на группы по определенному признаку.

Общая дисперсия

Как можно заметить, вычисленная по приведенному выше определению величина характеризует отклонения в целом. Без учета определяющих вариацию факторов. Вернее, с учетом всех, включая совершенно случайные. Поэтому и называется «общей» и рассчитывается по формулам, указанным ниже.

Простая дисперсия, без разделения на группы:

Или в несколько преобразованном виде:

Взвешенная дисперсия, для вариационного ряда:

где xi – значение из ряда;

fi – частота, количество повторений;

k – групп;

n – число вариантов.

Черта сверху указывает на среднюю величину.

Межгрупповая дисперсия

Характеризует систематическое отклонение, возникающее из-за фактора, по которому производилось выделение признаков в группы. Поэтому также называется «факторной». 

Как найти данную дисперсию? По формуле:

где k – количество групп;

nj – элементов в группе с индексом j.

Внутригрупповая дисперсия

Возникает по хаотичной причине, не связанной с причиной сделанной выборки. Неучтенный фактор. Еще обозначается как «остаточная».

Например, рассматривается количество выпущенных деталей за месяц каждым фрезеровщиком цеха. 

В качестве критерия отбора в группу выбираем возраст оборудования. Он-то и не будет влиять на производительность внутри подборки: там станки у всех практически одинаковые.

Если вычислить среднюю величину от всех групповых,

то получим характеристику случайного разброса. Иными словами, составляющую вариации, зависящую от чего угодно, кроме фактора отбора.

Взаимосвязь

В соответствии с правилом сложения, общая D включает средние выражения остаточной и факторной. И это логично, поскольку учитывает и случайное изменение в группе, и систематическое в факторной.

Что такое дисперсия в статистике

Статистика, в частности, оперирует рядами данных, характеризующих какой-либо признак, явление. Интересует их изменение.

Вариация представляет собой отличие величин одинакового показателя у разных предметов. Ее изучение позволит понять причины отклонений от нормы, анализировать их и в какой-то мере прогнозировать. Также станет возможным выявить факторы, влияющие на значения, отсеяв случайные.

Характеристики равномерного распределения представлены на картинке:

Основы теории вероятностей. дисперсия случайной величины

При значительном объеме статистики, средняя величина очевидно близка к нормальной. Об этом говорят и законы распределения. Отклонения от нее будут являться объективной характеристикой.

Только вот отрицательные значения этих разбросов будут сбивать с толку при расчетах, погашая положительные. А оставлять лишь модули – для математика не корректно. Напрашивается возвести в четную степень, а именно – во вторую.

Решение оказалось не только удобным. Оно открыло бо́льшие возможности в изучении отклонений. А важны именно они, поскольку сама по себе средняя мало что дает.

Основы теории вероятностей. дисперсия случайной величины

В качестве одного из важных показателей вариации, вводится понятие «дисперсия» – усредненный квадрат отклонений численных значений каких-либо событий от средней величины. 

Кратко записывается D в русскоязычных источниках и Var (от «variance») в английских. В статистических выкладках используется σ2.

Основы теории вероятностей. дисперсия случайной величины

Никакого наглядного смысла величина не несет. Другое дело, среднее квадратическое отклонение – корень квадратный из дисперсии.

коэффициент вариации

– это отношение стандартного отклонения к средней, выраженное в процентах:

И вот теперь совершенно без разницы, в д.е. мы считали:

или в тысячах д.е.:

Примечание: на практике часто считают именно через , но для оценки коэффициента вариации всей генеральной совокупности, конечно же, корректнее использовать исправленное стандартное отклонение .

В статистике существует следующий эмпирический ориентир:

– если показатель вариации составляет примерно 30% и меньше, то статистическая совокупность считается однородной. Это означает, что большинство вариант находится недалеко от средней, и найденное значение  хорошо характеризует центральную тенденцию совокупности.

– если показатель вариации составляет существенно больше 30%, то выборка неоднородна, то есть, значительное количество вариант находятся далеко от , и выборочная средняя плохо характеризует типичную варианту. В таких случаях целесообразно рассмотреть , а иногда и перцентили, которые делят вариационный ряд на части, и для каждого участка рассчитать свои показатели. Но это уже немного дебри статистики.

Другое преимущество относительных показателей – это возможность сравнивать разнородные статистические совокупности. Например, множество слонов и множество хомячков. Совершенно понятно, что дисперсия веса слонов по отношению к дисперсии веса хомяков будет просто конской, и их сопоставление не имеет смысла. Но вот анализ коэффициентов вариации веса вполне осмыслен, и может статься, что у слонов он составляет 10%, а у хомячков 40% (пример, конечно, условный). Это говорит о сбалансированном питании и размеренной жизни слонов. А вот хомяки там, то носятся с голодухи по полям, то отъедаются и спят в норах, и поэтому среди них есть много худощавых и много упитанных особей 🙂

Кроме коэффициента вариации, существуют и другие относительные показатели, но в реальных студенческих работах они почти не встречаются, и поэтому я не буду их рассматривать в рамках данного курса.

И сейчас, конечно же, задачки для самостоятельного решения:

Пример 17, на отработку терминов и формул:

а) Стандартное отклонение выборочной совокупности равно 5, а средний квадрат её вариант – 250. Найти выборочную среднюю.

б) Определите среднее квадратическое отклонение, если известно, что средняя равна 260, а коэффициент вариации составляет 30%.

и Пример 18, творческий:

Производство стальных труб на предприятии (тонн) в 1-м полугодии составило:Основы теории вероятностей. дисперсия случайной величины

Определить:
– среднемесячный объем производства;
– среднее квадратическое отклонение;
– коэффициент вариации.

Сделать краткие содержательные выводы. – Да, это тоже типичный пункт статистической задачи!

Обратите внимание, что здесь не понятно, выборочной ли считать эту совокупность или генеральной. И в таких случаях лучше не заниматься домыслами, просто используем обозначения без подстрочных индексов

Вообще, задачи на экономическую и промышленную тематику – самые популярные в статистике, и в моей коллекции их сотни. Но все они до ужаса однотипны, и поэтому я предлагаю их в терапевтической дозировке 🙂

Задание 8

Выполнить расчёты в Экселе – числа уже там, ну а инструкцию я на этот раз не привёл, поскольку люди вы уже опытные.

Краткое решение и ответ в конце урока, который подошёл к концу.

Следующее занятие не за горами, а уже за кочкой:

Решения и ответы:

Пример 17. Решение:

а) Используем формулу . По условию, , . Таким образом:Основы теории вероятностей. дисперсия случайной величины

б) Используем формулу . По условию, , . Таким образом:

Ответ: а) , б)

Пример 18. Решение: вычислим сумму вариант и сумму их квадратов:Найдём среднюю: тонны – среднемесячный объем производства за полугодие.Дисперсию вычислим по формуле:Основы теории вероятностей. дисперсия случайной величиныСреднее квадратическое отклонение: тонн.Коэффициент вариации:

Ответ:  тонны,  тонн,

Краткие выводы: за первое полугодие среднемесячный объём производства труб составил  тонны. Низкие показатели вариации говорят о стабильной ситуации на производстве.

(Переход на главную страницу)

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

Внутригрупповая дисперсия характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.

Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi — групповая средняя;
ni — число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).

Средняя из внутри групповых дисперсий отражает случайную вариацию, т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:

Дисперсия, среднеквадратичное (стандартное) отклонение, коэффициент вариации в Excel

Основы теории вероятностей. дисперсия случайной величины

Из предыдущей статьи мы узнали о таких показателях, как размах вариации, межквартильный размах и среднее линейное отклонение. В этой статье изучим дисперсию, среднеквадратичное отклонение и коэффициент вариации.

Расчет дисперсии в Excel

Генеральную и выборочную дисперсии легко рассчитать в Excel. Есть специальные функции: ДИСП.Г и ДИСП.В соответственно.

В чистом виде дисперсия не используется. Это вспомогательный показатель, который нужен в других расчетах. Например, в проверке статистических гипотез или расчете коэффициентов корреляции. Отсюда неплохо бы знать математические свойства дисперсии.

Свойства дисперсии

Свойство 1. Дисперсия постоянной величины A равна 0 (нулю).

D(A) = 0

Свойство 2. Если случайную величину умножить на постоянную А, то дисперсия этой случайной величины увеличится в А2 раз. Другими словами, постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат.

D(AX) = А2 D(X)

Свойство 3. Если к случайной величине добавить (или отнять) постоянную А, то дисперсия останется неизменной.

D(A + X) = D(X)

Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.

D(X+Y) = D(X) + D(Y)

Свойство 5. Если случайные величины X и Y независимы, то дисперсия их разницы также равна сумме дисперсий.

D(X-Y) = D(X) + D(Y)

Среднеквадратичное (стандартное) отклонение

Если из дисперсии извлечь квадратный корень, получится среднеквадратичное (стандартное) отклонение (сокращенно СКО). Встречается название среднее квадратичное отклонение и сигма (от названия греческой буквы). Общая формула стандартного отклонения в математике следующая:

На практике формула стандартного отклонения следующая:

Как и с дисперсией, есть и немного другой вариант расчета. Но с ростом выборки разница исчезает.

Расчет cреднеквадратичного (стандартного) отклонения в Excel

Для расчета стандартного отклонения достаточно из дисперсии извлечь квадратный корень. Но в Excel есть и готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).

Среднеквадратичное отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными.

Расчет коэффициента вариации в Excel

Расчет коэффициента вариации в Excel также производится делением стандартного отклонения на среднее арифметическое:

=СТАНДОТКЛОН.В()/СРЗНАЧ()

Коэффициент вариации обычно выражается в процентах, поэтому ячейке с формулой можно присвоить процентный формат:

Коэффициент осцилляции

Еще один показатель разброса данных на сегодня – коэффициент осцилляции. Это соотношение размаха вариации (разницы между максимальным и минимальным значением) к средней. Готовой формулы Excel нет, поэтому придется скомпоновать три функции: МАКС, МИН, СРЗНАЧ.

Коэффициент осцилляции показывает степень размаха вариации относительно средней, что также можно использовать для сравнения различных наборов данных.

Таким образом, в статистическом анализе существует система показателей, отражающих разброс или однородность данных. 

Ниже видео о том, как посчитать коэффициент вариации, дисперсию, стандартное (среднеквадратичное) отклонение и другие показатели вариации в Excel.

Заключение

Статистика оперирует значительными объемами данных. Вариация, как одно из основных понятий – не исключение. И дисперсия в качестве основной характеристики. 

Для упрощения расчетов существует масса онлайн калькуляторов. Имеется упомянутый инструмент в MS Excel.

Предыдущая
АлгебраПравило Лопиталя для вычисления пределов, примеры с подробным решением, доказательство
Следующая
АлгебраКоординаты вектора как найти длину отрезка по двум точкам, правило и формула нахождения в пространстве, свойства, задачи с решением, онлайн-калькулятор