Практическое моделирование

и другие вопросы разработки нефтяных месторождений
Без рубрики

Статистическая подготовка

Сегодня попробуем восстановить минимальные знания о статистических характеристиках, которые пригодятся нам позже.

Среднее значение или математическое ожидание,

x_{cp}=\frac{\sum x}{n}

Дисперсия это мера разброса случайной величины от математического ожидания. Чем однороднее выборка, тем меньше её дисперсия.

\sigma^2=\frac{\sum\left(x-x_{cp} \right )^2}{n}

Если стандартное отклонение это абсолютная величина, то вариация это относительная величина, которая выражается либо в долях единицы, либо в процентах. Квадрат коэффициента вариации,

V^2=\frac{\sigma^2}{x^2_{cp}}

Преобразуем формулу дисперсии,

\sigma^2=\frac{\sum\left(x^2-2x \cdot x_{cp} +x^2_{cp} \right )}{n} \sigma^2=\frac{\sum x^2}{n}-2\cdot x_{cp}\cdot\frac{\sum x}{n} + \frac{\sum x^2_{cp}}{n}

Первое слагаемое это среднее суммы квадратов значений,

(x^2)_{cp}=\frac{\sum x^2}{n}

Во втором слагаемом можно заметить математическое ожидание,

\sigma^2=(x^2)_{cp}-2\cdot x^2_{cp} +x^2_{cp}

И получить другую запись для вычисления дисперсии,

\sigma^2=(x^2)_{cp}-x^2_{cp}

Квадрат коэффициента вариации, также можно записать иначе,

V^2+1=\frac{(x^2)_{cp}}{x^2_{cp}}

Далее мне хотелось бы вспомнить о сложении дисперсий.

Представим себе, что у нас есть большая выборка случайных чисел, которая конечно же обладает средним значением и дисперсией. Далее разделим выборку на три части, с необязательно равным количеством чисел и попробуем понять, как можно определить дисперсию всей выборки, зная дисперсии каждой из частей в отдельности.

Дисперсия для каждой из выбранных групп, по определению записывается в следующем виде, где номер группы представлен в индексе,

\sigma^2_1=(x^2_1)_{cp}-x^2_{1.cp}=\frac{\sum x^2_1}{n_1}-x^2_{1.cp} \sigma^2_2=(x^2_2)_{cp}-x^2_{2.cp}=\frac{\sum x^2_2}{n_2}-x^2_{2.cp} \sigma^2_3=(x^2_3)_{cp}-x^2_{3.cp}=\frac{\sum x^2_3}{n_3}-x^2_{3.cp}

Для всей большой выборки дисперсия записывается так,

\sigma^2_{\infty}=\frac{\sum x_1^2+\sum x_2^2 +\sum x_3^2}{n_1+n_2+n_3}-x^2_{cp}

Здесь индекс «бесконечность» лишь подчеркивает размер выборки. Перегруппируем слагаемые следующим образом,

\sigma^2_{\infty}=\frac{\sum x_1^2}{n_1}\cdot\frac{n_1}{\sum n}+\frac{\sum x_2^2}{n_2}\cdot\frac{n_2}{\sum n}+\frac{\sum x_3^2}{n_3}\cdot\frac{n_3}{\sum n}-x^2_{cp}

что позволяет провести замены,

\sigma^2_{\infty}=(\sigma_1^2+x_{1.cp}^2)\cdot\frac{n_1}{\sum n}+(\sigma_2^2+x_{2.cp}^2)\cdot\frac{n_2}{\sum n}+(\sigma_3^2+x_{3.cp}^2)\cdot\frac{n_3}{\sum n}-x^2_{cp}

и снова перегруппировываем,

\sigma^2_{\infty}=\sigma_1^2\cdot\frac{n_1}{\sum n}+\sigma_2^2\cdot\frac{n_2}{\sum n}+\sigma_3^2\cdot\frac{n_3}{\sum n}+x_{1.cp}^2\cdot\frac{n_1}{\sum n}+x_{2.cp}^2\cdot\frac{n_2}{\sum n}+x_{3.cp}^2\cdot\frac{n_3}{\sum n}-x^2_{cp}

Первые три слагаемых, представляют из себя среднюю дисперсию внутри групп,

\sigma^2_n=\sigma_1^2\cdot\frac{n_1}{\sum n}+\sigma_2^2\cdot\frac{n_2}{\sum n}+\sigma_3^2\cdot\frac{n_3}{\sum n}

Индукция позволяет обобщить результат для произвольных n групп,

\sigma^2_n=\sum_i\left(\sigma_i^2 \cdot \frac{n_i}{\sum n}\right)

Оставшиеся слагаемые формируют дисперсию между средними значениями в каждой группе,

\sigma^2_*=x_{1.cp}^2\cdot\frac{n_1}{\sum n}+x_{2.cp}^2\cdot\frac{n_2}{\sum n}+x_{3.cp}^2\cdot\frac{n_3}{\sum n}-x^2_{cp} \sigma^2_*=\sum \left(x_{i.cp}^2\cdot\frac{n_i}{\sum n} \right )-x^2_{cp}

где,

x_{cp}=\sum \left(x_{i.cp}\cdot\frac{n_i}{\sum n} \right )

Другими словами, межгрупповая дисперсия, показывает не то, насколько однородна или разнообразна каждая группа внутри себя, она показывает насколько средние значения в каждой группе отличаются друг от друга.

Таким образом, чтобы определить дисперсию всей выборки, надо сложить средние значения дисперсий в каждой маленькой группе и более крупные вибрации между средними значениями каждой группы,

\sigma^2_{\infty}=\sigma_n^2+\sigma_*^2

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *