Читать книгу Базовая оценка минерализации. Ресурсный геолог - - Страница 16
ГЛАВА 1. СОЗДАНИЕ И ОБРАБОТКА РУДНОЙ ВЫБОРКИ
Общий статистический анализ одной величины
Виды распределений
ОглавлениеНормальное распределение
В статистике существуют некоторые «стандартные» типы распределений, одним из которых является так называемое «нормальное» распределение. Этому распределению соответствуют распределения многих «бытовых» величин: рост и вес определенной группы людей, во многих случаях – распределение ошибок измерения и т. д. Поскольку это распределение является широко распространенным, его параметры хорошо изучены. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю (точнее, неотличимы от нуля). Среднее арифметическое равно медиане.
Кроме того, для нормального закона существует так называемое «правило трех сигм», которое гласит, что:
– 68% значений находятся в пределах плюс-минус 1 стандартного отклонения от среднего значения;
– 95% значений находятся в пределах плюс-минус 2 стандартных отклонения от среднего значения;
– 99,7% значений находятся в пределах плюс-минус 3 стандартных отклонения от среднего значения.
Гистограммы различных видов асимметрии
Это правило позволяет не только находить интервал, куда наверняка попадут практически все значения интересующей нас переменной, но и искать значения вне этого интервала. Эти значения называют выбросами. Появление выбросов не является «запрещенным» с точки зрения нормального распределения, но их наличие маловероятно, а потому подозрительно. Это правило было бы хорошим инструментом для поиска ураганных содержаний, если бы не одно «но»: для его применения требуется, чтобы распределение было, во-первых, однородным, а, во-вторых, не противоречило нормальному закону распределения. Что, к сожалению, чаще всего не так (причем зачастую не выполняется ни первое, ни второе требование).
Логнормальное распределение
Кроме нормального распределения, также достаточно распространенным является так называемое логарифмически нормальное, или короче – логнормальное распределение: такое, при котором нормальному распределению не противоречат логарифмы значений изучаемой величины. Логнормальное распределение имеет правостороннюю асимметрию – то есть его среднее смещено по оси абсцисс вправо от медианы, а коэффициент асимметрии положителен.
Гистограмма логнормального распределения
При работе с распределением со значительной правой асимметрией (например, логарифмически нормальным распределением) гистограммы, построенные обычным образом – т. е. в «натуральных» единицах, весьма «ненаглядны». Не в том смысле, что прямо вот «глаз не отвести», а в том, что смотрю – и ничего не вижу. Что неудивительно: большинство наблюдений сгруппировано «слева» и попадает всего в несколько классов значений. Соответственно, гистограмма распределения с большой правой асимметрией выглядит, например, как-то так.
Гистограмма с правой асимметрией
В общем, не очень читаемая гистограмма. В этом случае необходимо выполнить симметризацию распределения. Так исторически сложилось, что наиболее часто встречаемым способом симметризации является логарифмирование значений. В принципе, симметризацию можно выполнить, например, с помощью корня – квадратного, кубического и т. д. Но логарифмирование обычно дает наиболее качественную симметризацию.
Итак, логарифм. Логарифм – это показатель степени, в которую надо возвести основание, чтобы получить число, которое подвергается логарифмированию. С первого раза непонятно (со второго – тоже не очень). Зато понятно, что логарифм – это штука, у которой есть основание. Уже хорошо. То есть у вас есть некоторое число, которое вы решили подвергнуть логарифмированию. Для этого надо выбрать основание логарифмирования. Основание – тоже число. То есть для логарифмирования надо два числа: одно – которое подвергается логарифмированию, а второе – основание логарифма. А на выходе имеем показатель степени, в которое надо возвести основание, чтобы получить число, которое под знаком логарифма. Давайте это запишем:
log2 (8)
Здесь написано: «логарифм 8 по основанию 2». Возвращаемся к определению. Результатом логарифмирования будет показатель степени, в которое надо возвести основание, чтобы получить число, подвергаемое логарифмированию. В приведенном примере мы логарифмируем 8 по основанию 2. В какую степень надо возвести 2 (основание), чтобы получить 8? Очевидно, в 3-ю. То есть:
log2 (8) = 3
Также, исходя из сказанного, совершенно очевидно, что:
log3 (9) = 2
log5 (125) = 3
log10 (10000) = 4
Ну и напоминаем, что
log3 (1) = 0
log5 (1) = 0
log78 (1) = 0
Или в общем случае
loga (1) = 0, a ≠ 0, a ≠ 1
Опять же, чисто исторически сложилось, что в качестве основания логарифма чаще всего принимается два числа – число «e» и 10. Логарифм по основанию «e» называют натуральным, а по основанию 10 – десятичным. Обычно натуральный логарифм обозначают
ln (a),
а десятичный
lg (a)
Давайте кратко рассмотрим два наиболее часто встречающихся основания логарифма. С десяткой «все ясно» – это основание нашей системы счисления и совершенно логично равно количеству пальцев на руках (если бы наша цивилизация была цивилизацией токарей-математиков, основанием системы счисления могло бы быть и 8, и 6 – в зависимости от удачливости токарей). А что такое «e»? Это такое очень интересное число, которое является одной из фундаментальных математических констант (наряду, например, с числом π) и всплывает в большом количестве реальных проблем. Если есть несколько минут времени, можно посмотреть вот этот9 ролик про число «e». Что еще можно сказать про «e»? Ну, например, то, что оно иррациональное – то есть не может быть вычислено как частное двух целых чисел. В десятичной записи оно имеет бесконечное число знаков после запятой. Также число «e» является трансцендентным – то есть не является корнем ни одного многочлена с целыми коэффициентами. Впрочем, этот факт уже совсем не относится к делу.
Возвращаясь к логарифмированию. Различия в основаниях в подавляющем большинстве случаев никак не сказывается на результате, поскольку для логарифмов действует довольно простое правило замены основания:
loga (b) = logc (b) / logc (a),
то есть для перехода от десятичного логарифма к натуральному результат надо разделить на константу – на натуральный логарифм 10:
lg (a) = ln (a) / ln (10)
Ну или в обратную сторону – от натурального к десятичному:
ln (a) = lg (a) / lg (e)
Поэтому когда речь идет о логарифмировании какой-то выборки, то основание особой роли не играет: любые результаты логарифмирования отличаются друг от друга на постоянный множитель, что не оказывает никакого влияния на характер распределения.
У логарифма есть одно чрезвычайно полезное свойство (правда, в плане обработки выборок, кажется, не применимое):
log (a * b) = log (a) + log (b)
То есть с помощью логарифмирования умножение сводится к значительно более простой операции сложения. И эта особенность логарифмов, например, дала возможность создать аналоговую вычислительную машину, хорошо знакомую «бумерам» – логарифмическую линейку10.
Ну и одно неприятное свойство логарифма: логарифм нуля не существует (а в выборках нули, увы, присутствуют).
Возвращаясь к нашим правоасимметричным выборкам. Представим, что в нашем распоряжении есть выборка11 с большой правой асимметрией (это не реальные данные, а сгенерированные для иллюстрации процедуры построения). Давайте построим по этой выборке сначала обычную гистограмму, потом – гистограмму в логарифмическом масштабе.
Для построения обычной гистограммы последовательно выполняем шаги:
– Определяем минимум, максимум и размах (Лист «Данные»).
– Задаем количество классов группировки и рассчитываем ширину класса (Лист «Данные»).
– Присваиваем каждому значению номер класса (Лист «Шаг 1 – обычный масштаб»).
– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – обычный масштаб»).
– Строим гистограмму в «натуральном» масштабе (Лист «Шаг 3 – обычный масштаб»).
В итоге получается что-то вот такое:
Гистограмма с правой асимметрией в натуральном масштабе
Как и предупреждали, наглядность полученного графика оставляет желать лучшего.
А теперь давайте построим гистограмму в логарифмическом масштабе. Последовательность действий точно такая же, кроме первого шага – данные необходимо логарифмировать:
– Логарифмируем данные. Пусть это будет натуральный логарифм – как сказано выше, основание логарифма не влияет на характер распределения (Лист «Лог. данные»).
– Определяем минимум, максимум и размах логарифмов (Лист «Лог. данные»).
– Задаем количество классов группировки и рассчитываем ширину класса по логарифмам (Лист «Лог. данные»).
– Присваиваем каждому значению номер класса (Лист «Шаг 1 – лог масштаб»).
– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – лог масштаб»).
– Строим гистограмму в логарифмическом масштабе (Лист «Шаг 3 – лог масштаб»).
Гистограмма с правой асимметрией в логарифмическом масштабе
Красивее же, правда? Необходимо отметить, что в реальной работе вам не придется выполнять все эти нудные операции – практически любое ПО, которым вы будете пользоваться, обладает способностью к построению гистограмм – как в натуральном, так и в логарифмическом масштабе. И переход между натуральным и логарифмическим масштабом обычно выполняется с помощью одной «галочки» в настройках графика. Но понимать, что именно произошло и как строить такую гистограмму, необходимо.
Суммируя: при построении логарифмической гистограммы вы работаете не с исходными данными, а с их логарифмами.
9
https://www.youtube.com/watch?v=vB73Ynza-0o
10
https://en.wikipedia.org/wiki/Slide_rule
11
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Log_histo.xlsb