Практическое моделирование

и другие вопросы разработки нефтяных месторождений
,,^.^,,

Статистическая подготовка

Сегодня попробуем восстановить минимальные знания о статистических характеристиках, которые пригодятся нам позже.

Среднее значение или математическое ожидание,

    \[x_{cp}=\frac{\sum x}{n}\]

Дисперсия это мера разброса случайной величины от математического ожидания. Чем однороднее выборка, тем меньше её дисперсия.

    \[\sigma^2=\frac{\sum\left(x-x_{cp} \right )^2}{n}\]

Если стандартное отклонение это абсолютная величина, то вариация это относительная величина, которая выражается либо в долях единицы, либо в процентах. Квадрат коэффициента вариации,

    \[V^2=\frac{\sigma^2}{x^2_{cp}}\]

Преобразуем формулу дисперсии,

    \[\sigma^2=\frac{\sum\left(x^2-2x \cdot x_{cp} +x^2_{cp} \right )}{n}\]

    \[\sigma^2=\frac{\sum x^2}{n}-2\cdot x_{cp}\cdot\frac{\sum x}{n} + \frac{\sum x^2_{cp}}{n}\]

Первое слагаемое это среднее суммы квадратов значений,

    \[(x^2)_{cp}=\frac{\sum x^2}{n}\]

Во втором слагаемом можно заметить математическое ожидание,

    \[\sigma^2=(x^2)_{cp}-2\cdot x^2_{cp} +x^2_{cp}\]

И получить другую запись для вычисления дисперсии,

    \[\sigma^2=(x^2)_{cp}-x^2_{cp}\]

Квадрат коэффициента вариации, также можно записать иначе,

    \[V^2+1=\frac{(x^2)_{cp}}{x^2_{cp}}\]

Далее мне хотелось бы вспомнить о сложении дисперсий.

Представим себе, что у нас есть большая выборка случайных чисел, которая конечно же обладает средним значением и дисперсией. Далее разделим выборку на три части, с необязательно равным количеством чисел и попробуем понять, как можно определить дисперсию всей выборки, зная дисперсии каждой из частей в отдельности.

Дисперсия для каждой из выбранных групп, по определению записывается в следующем виде, где номер группы представлен в индексе,

    \[\sigma^2_1=(x^2_1)_{cp}-x^2_{1.cp}=\frac{\sum x^2_1}{n_1}-x^2_{1.cp}\]

    \[\sigma^2_2=(x^2_2)_{cp}-x^2_{2.cp}=\frac{\sum x^2_2}{n_2}-x^2_{2.cp}\]

    \[\sigma^2_3=(x^2_3)_{cp}-x^2_{3.cp}=\frac{\sum x^2_3}{n_3}-x^2_{3.cp}\]

Для всей большой выборки дисперсия записывается так,

    \[\sigma^2_{\infty}=\frac{\sum x_1^2+\sum x_2^2 +\sum x_3^2}{n_1+n_2+n_3}-x^2_{cp}\]

Здесь индекс «бесконечность» лишь подчеркивает размер выборки. Перегруппируем слагаемые следующим образом,

    \[\sigma^2_{\infty}=\frac{\sum x_1^2}{n_1}\cdot\frac{n_1}{\sum n}+\frac{\sum x_2^2}{n_2}\cdot\frac{n_2}{\sum n}+\frac{\sum x_3^2}{n_3}\cdot\frac{n_3}{\sum n}-x^2_{cp}\]

что позволяет провести замены,

    \[\sigma^2_{\infty}=(\sigma_1^2+x_{1.cp}^2)\cdot\frac{n_1}{\sum n}+(\sigma_2^2+x_{2.cp}^2)\cdot\frac{n_2}{\sum n}+(\sigma_3^2+x_{3.cp}^2)\cdot\frac{n_3}{\sum n}-x^2_{cp}\]

и снова перегруппировываем,

    \[\sigma^2_{\infty}=\sigma_1^2\cdot\frac{n_1}{\sum n}+\sigma_2^2\cdot\frac{n_2}{\sum n}+\sigma_3^2\cdot\frac{n_3}{\sum n}+x_{1.cp}^2\cdot\frac{n_1}{\sum n}+x_{2.cp}^2\cdot\frac{n_2}{\sum n}+x_{3.cp}^2\cdot\frac{n_3}{\sum n}-x^2_{cp}\]

Первые три слагаемых, представляют из себя среднюю дисперсию внутри групп,

    \[\sigma^2_n=\sigma_1^2\cdot\frac{n_1}{\sum n}+\sigma_2^2\cdot\frac{n_2}{\sum n}+\sigma_3^2\cdot\frac{n_3}{\sum n}\]

Индукция позволяет обобщить результат для произвольных n групп,

    \[\sigma^2_n=\sum_i\left(\sigma_i^2 \cdot \frac{n_i}{\sum n}\right)\]

Оставшиеся слагаемые формируют дисперсию между средними значениями в каждой группе,

    \[\sigma^2_*=x_{1.cp}^2\cdot\frac{n_1}{\sum n}+x_{2.cp}^2\cdot\frac{n_2}{\sum n}+x_{3.cp}^2\cdot\frac{n_3}{\sum n}-x^2_{cp}\]

    \[\sigma^2_*=\sum \left(x_{i.cp}^2\cdot\frac{n_i}{\sum n} \right )-x^2_{cp}\]

где,

    \[x_{cp}=\sum \left(x_{i.cp}\cdot\frac{n_i}{\sum n} \right )\]

Другими словами, межгрупповая дисперсия, показывает не то, насколько однородна или разнообразна каждая группа внутри себя, она показывает насколько средние значения в каждой группе отличаются друг от друга.

Таким образом, чтобы определить дисперсию всей выборки, надо сложить средние значения дисперсий в каждой маленькой группе и более крупные вибрации между средними значениями каждой группы,

    \[\sigma^2_{\infty}=\sigma_n^2+\sigma_*^2\]

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *