Статистическая подготовка
Сегодня попробуем восстановить минимальные знания о статистических характеристиках, которые пригодятся нам позже.
Среднее значение или математическое ожидание,
Дисперсия это мера разброса случайной величины от математического ожидания. Чем однороднее выборка, тем меньше её дисперсия.
Если стандартное отклонение это абсолютная величина, то вариация это относительная величина, которая выражается либо в долях единицы, либо в процентах. Квадрат коэффициента вариации,
Преобразуем формулу дисперсии,
Первое слагаемое это среднее суммы квадратов значений,
Во втором слагаемом можно заметить математическое ожидание,
И получить другую запись для вычисления дисперсии,
Квадрат коэффициента вариации, также можно записать иначе,
Далее мне хотелось бы вспомнить о сложении дисперсий.
Представим себе, что у нас есть большая выборка случайных чисел, которая конечно же обладает средним значением и дисперсией. Далее разделим выборку на три части, с необязательно равным количеством чисел и попробуем понять, как можно определить дисперсию всей выборки, зная дисперсии каждой из частей в отдельности.
Дисперсия для каждой из выбранных групп, по определению записывается в следующем виде, где номер группы представлен в индексе,
Для всей большой выборки дисперсия записывается так,
Здесь индекс «бесконечность» лишь подчеркивает размер выборки. Перегруппируем слагаемые следующим образом,
что позволяет провести замены,
и снова перегруппировываем,
Первые три слагаемых, представляют из себя среднюю дисперсию внутри групп,
Индукция позволяет обобщить результат для произвольных n групп,
Оставшиеся слагаемые формируют дисперсию между средними значениями в каждой группе,
где,
Другими словами, межгрупповая дисперсия, показывает не то, насколько однородна или разнообразна каждая группа внутри себя, она показывает насколько средние значения в каждой группе отличаются друг от друга.
Таким образом, чтобы определить дисперсию всей выборки, надо сложить средние значения дисперсий в каждой маленькой группе и более крупные вибрации между средними значениями каждой группы,