Читать книгу Базовая оценка минерализации. Ресурсный геолог - - Страница 12
ГЛАВА 1. СОЗДАНИЕ И ОБРАБОТКА РУДНОЙ ВЫБОРКИ
Общий статистический анализ одной величины
Дисперсия
ОглавлениеКроме «точечных» характеристик исследуемой величины, также полезно знать и о степени отклонения значений исследуемой величины от среднего, а также «направлении» отклонения.
Формула отклонения значений от среднего
В результате этой операции будет получена новая величина, которая характеризует величину отклонения выборочного значения от среднего для каждого члена выборки. И значений этого отклонения – ровно столько же, сколько значений в выборке (отклонение рассчитано для каждого выборочного значения). Так же нам хочется понять, каково это отклонение в среднем, и хочется взять и усреднить полученные значения. Но в данном случае проблема заключается в том, что расчет среднего арифметического из значений отклонения даст 0. Просто по причине того, что среднее – это значение, «равноудаленное» от всех значений выборки. Выше было указано, что одно из свойств среднего – это то, что сумма отклонений всех выборочных значений от среднего равно 0. Из сложившегося неудобного положения можно найти два выхода:
– взять модуль (абсолютное значение) отклонений и усреднить их,
– возвести в четную степень полученные отклонения и усреднить их. Проще всего – возвести в квадрат.
Исторически сложилось так, что был выбран второй вариант – просто потому, что степенная функция является дифференцируемой во всей области определения, а модуль – нет. Для статистических расчетов, более сложных, чем обычно используются в геологии, необходимо, чтобы была возможность без лишних проблем интегрировать и дифференцировать функции. В этом отношении степенная функция значительно «удобнее», чем модуль. Поэтому мы имеем в качестве величины, характеризующей разброс данных, усредненную сумму квадратов отклонений.
Итого: чтобы не получить ноль при усреднении отклонений, требуется использовать квадрат величины отклонения. То есть выборочной дисперсией называется величина, рассчитанная по формуле:
Формула для оценки дисперсии выборки
То есть выборочная дисперсия – среднее из квадратов отклонения случайной величины от ее среднего значения.
Считается (и доказывается в классических статистических работах), что выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Для оценки дисперсии генеральной совокупности используется чуть более сложная формула:
Формула для оценки дисперсии генеральной совокупности
Выше мы с помощью несложных логических рассуждений вывели формулу дисперсии. Было бы нелишним понимать смысл этой формулы, но строгого запоминания этих формул не требуется, поскольку они заложены во всем ПО, работающем с данными (по крайней мере, авторам не встречалось ПО, где бы эти формулы не были заложены).
Выше приведены две формулы расчета дисперсии. Необходимо обратить внимание на то, что в задачах моделирования практически всегда мы имеем дело не с генеральными совокупностями, а со случайными выборками из генеральной совокупности. Поэтому мы не имеем точного значения дисперсии, а только ее оценку. В учебниках по математической статистике5 указано, что верхняя формула (где выполняется деление на численность выборки) дает смещенную оценку дисперсии, а нижняя (где деление выполняется на численность выборки минус 1) – несмещенную. Вторую формулу используют для оценки дисперсии генеральной совокупности.
Теперь о том, какую дисперсию считает ПО, которым мы имеем счастье пользоваться:
– Первым пунктом идет, естественно, великий и ужасный Excel6. В Excel существует две формулы для расчета дисперсии (на самом деле, больше, но глобально – две, остальные – это вариации на тему «использовать логические значения / не использовать логические значения»): ДИСП. В и ДИСП. Г. Причем вторая, как сказано в ее кратком описании, рассчитывает дисперсию генеральной совокупности. Вот, казалось бы, «щасстье привалило». Однако нет: ручная проверка показывает, что результат работы функции ДИСП. Г совпадает с формулой смещенной оценки. В чем же проблема? А проблема очень простая: функция ДИСП. Г считает, что то, что она получила на вход, это и есть генеральная совокупность. А при генеральной совокупности – таки да, надо делить на численность генеральной совокупности. Но у нас-то не генеральная! Хорошо, если генеральная совокупность выглядит как «непьющие мужчины за 40 деревни Чуево-Кукуево» – там вообще считать нечего. Но в моделировании мы практически всегда имеем дело со случайной выборкой. Поэтому функцию ДИСП. Г мы забываем, как страшный сон.
Вывод: Excel для выборочной дисперсии (ДИСП. В) приводит ее несмещенную оценку.
– Google таблицы7 – аналогично: функция VAR рассчитывает несмещенную оценку, функция VARP совершенно аналогична ДИСП. Г Excel.
– Datamine. Дает смещенную оценку.
– Snowden Supervisor. Дает смещенную оценку.
– Micromine. Дает несмещенную оценку.
– Leapfrog. Дает несмещенную оценку.
И вот вы прочитали предыдущие 6 пунктов и сидите в ужасе: «Чему верить?» А в общем, ничего страшного в описанной ситуации нет. Заметим, что при росте объема выборки (и соответственно, приближении ее к генеральной совокупности) разница между оценкой выборочной дисперсии и дисперсии генеральной совокупности уменьшается (ну просто потому, что разница между делением на 10 и 11 вполне ощутима, а на 10000 и 9999 – почти нет). Ниже представлен график разницы между смещенной и несмещенной оценкой для выборок различного объема, созданных с помощью генератора случайных чисел.
Выборка сгенерирована с помощью генератора случайных чисел (в генератор заложена дисперсия 10), поэтому абсолютные цифры могут несколько «гулять», но тенденция видна невооруженным глазом: при численности выборки более ~100 наблюдений разница между смещенной и несмещенной оценками падает ниже 1% от дисперсии (кстати, на втором листе файла Excel, ссылка на который была чуть выше, эти формулы заложены – можете поиграть с ними). Учитывая обычные объемы выборок для моделирования, можно не забивать себе голову вопросами «это смещенная или несмещенная оценка?».
График разницы между смещенной и несмещенной оценкой для выборок различного объема
5
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.docx
6
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.xlsx
7
https://docs.google.com/spreadsheets/d/1dlF4GKxsQ9DQZoPm1JBFQss3XLXqgl_j3h7qTTrEfJM