Читать книгу Базовая оценка минерализации. Ресурсный геолог - - Страница 16

ГЛАВА 1. СОЗДАНИЕ И ОБРАБОТКА РУДНОЙ ВЫБОРКИ
Общий статистический анализ одной величины
Виды распределений

Оглавление

Нормальное распределение

В статистике существуют некоторые «стандартные» типы распределений, одним из которых является так называемое «нормальное» распределение. Этому распределению соответствуют распределения многих «бытовых» величин: рост и вес определенной группы людей, во многих случаях – распределение ошибок измерения и т. д. Поскольку это распределение является широко распространенным, его параметры хорошо изучены. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю (точнее, неотличимы от нуля). Среднее арифметическое равно медиане.

Кроме того, для нормального закона существует так называемое «правило трех сигм», которое гласит, что:

– 68% значений находятся в пределах плюс-минус 1 стандартного отклонения от среднего значения;

– 95% значений находятся в пределах плюс-минус 2 стандартных отклонения от среднего значения;

– 99,7% значений находятся в пределах плюс-минус 3 стандартных отклонения от среднего значения.


Гистограммы различных видов асимметрии


Это правило позволяет не только находить интервал, куда наверняка попадут практически все значения интересующей нас переменной, но и искать значения вне этого интервала. Эти значения называют выбросами. Появление выбросов не является «запрещенным» с точки зрения нормального распределения, но их наличие маловероятно, а потому подозрительно. Это правило было бы хорошим инструментом для поиска ураганных содержаний, если бы не одно «но»: для его применения требуется, чтобы распределение было, во-первых, однородным, а, во-вторых, не противоречило нормальному закону распределения. Что, к сожалению, чаще всего не так (причем зачастую не выполняется ни первое, ни второе требование).


Логнормальное распределение

Кроме нормального распределения, также достаточно распространенным является так называемое логарифмически нормальное, или короче – логнормальное распределение: такое, при котором нормальному распределению не противоречат логарифмы значений изучаемой величины. Логнормальное распределение имеет правостороннюю асимметрию – то есть его среднее смещено по оси абсцисс вправо от медианы, а коэффициент асимметрии положителен.


Гистограмма логнормального распределения


При работе с распределением со значительной правой асимметрией (например, логарифмически нормальным распределением) гистограммы, построенные обычным образом – т. е. в «натуральных» единицах, весьма «ненаглядны». Не в том смысле, что прямо вот «глаз не отвести», а в том, что смотрю – и ничего не вижу. Что неудивительно: большинство наблюдений сгруппировано «слева» и попадает всего в несколько классов значений. Соответственно, гистограмма распределения с большой правой асимметрией выглядит, например, как-то так.


Гистограмма с правой асимметрией


В общем, не очень читаемая гистограмма. В этом случае необходимо выполнить симметризацию распределения. Так исторически сложилось, что наиболее часто встречаемым способом симметризации является логарифмирование значений. В принципе, симметризацию можно выполнить, например, с помощью корня – квадратного, кубического и т. д. Но логарифмирование обычно дает наиболее качественную симметризацию.

Итак, логарифм. Логарифм – это показатель степени, в которую надо возвести основание, чтобы получить число, которое подвергается логарифмированию. С первого раза непонятно (со второго – тоже не очень). Зато понятно, что логарифм – это штука, у которой есть основание. Уже хорошо. То есть у вас есть некоторое число, которое вы решили подвергнуть логарифмированию. Для этого надо выбрать основание логарифмирования. Основание – тоже число. То есть для логарифмирования надо два числа: одно – которое подвергается логарифмированию, а второе – основание логарифма. А на выходе имеем показатель степени, в которое надо возвести основание, чтобы получить число, которое под знаком логарифма. Давайте это запишем:

log2 (8)


Здесь написано: «логарифм 8 по основанию 2». Возвращаемся к определению. Результатом логарифмирования будет показатель степени, в которое надо возвести основание, чтобы получить число, подвергаемое логарифмированию. В приведенном примере мы логарифмируем 8 по основанию 2. В какую степень надо возвести 2 (основание), чтобы получить 8? Очевидно, в 3-ю. То есть:

log2 (8) = 3


Также, исходя из сказанного, совершенно очевидно, что:

log3 (9) = 2

log5 (125) = 3

log10 (10000) = 4


Ну и напоминаем, что

log3 (1) = 0

log5 (1) = 0

log78 (1) = 0


Или в общем случае

loga (1) = 0, a ≠ 0, a ≠ 1


Опять же, чисто исторически сложилось, что в качестве основания логарифма чаще всего принимается два числа – число «e» и 10. Логарифм по основанию «e» называют натуральным, а по основанию 10 – десятичным. Обычно натуральный логарифм обозначают

ln (a),


а десятичный

lg (a)


Давайте кратко рассмотрим два наиболее часто встречающихся основания логарифма. С десяткой «все ясно» – это основание нашей системы счисления и совершенно логично равно количеству пальцев на руках (если бы наша цивилизация была цивилизацией токарей-математиков, основанием системы счисления могло бы быть и 8, и 6 – в зависимости от удачливости токарей). А что такое «e»? Это такое очень интересное число, которое является одной из фундаментальных математических констант (наряду, например, с числом π) и всплывает в большом количестве реальных проблем. Если есть несколько минут времени, можно посмотреть вот этот9 ролик про число «e». Что еще можно сказать про «e»? Ну, например, то, что оно иррациональное – то есть не может быть вычислено как частное двух целых чисел. В десятичной записи оно имеет бесконечное число знаков после запятой. Также число «e» является трансцендентным – то есть не является корнем ни одного многочлена с целыми коэффициентами. Впрочем, этот факт уже совсем не относится к делу.

Возвращаясь к логарифмированию. Различия в основаниях в подавляющем большинстве случаев никак не сказывается на результате, поскольку для логарифмов действует довольно простое правило замены основания:

loga (b) = logc (b) / logc (a),


то есть для перехода от десятичного логарифма к натуральному результат надо разделить на константу – на натуральный логарифм 10:

lg (a) = ln (a) / ln (10)


Ну или в обратную сторону – от натурального к десятичному:

ln (a) = lg (a) / lg (e)


Поэтому когда речь идет о логарифмировании какой-то выборки, то основание особой роли не играет: любые результаты логарифмирования отличаются друг от друга на постоянный множитель, что не оказывает никакого влияния на характер распределения.

У логарифма есть одно чрезвычайно полезное свойство (правда, в плане обработки выборок, кажется, не применимое):

log (a * b) = log (a) + log (b)


То есть с помощью логарифмирования умножение сводится к значительно более простой операции сложения. И эта особенность логарифмов, например, дала возможность создать аналоговую вычислительную машину, хорошо знакомую «бумерам» – логарифмическую линейку10.

Ну и одно неприятное свойство логарифма: логарифм нуля не существует (а в выборках нули, увы, присутствуют).

Возвращаясь к нашим правоасимметричным выборкам. Представим, что в нашем распоряжении есть выборка11 с большой правой асимметрией (это не реальные данные, а сгенерированные для иллюстрации процедуры построения). Давайте построим по этой выборке сначала обычную гистограмму, потом – гистограмму в логарифмическом масштабе.

Для построения обычной гистограммы последовательно выполняем шаги:

– Определяем минимум, максимум и размах (Лист «Данные»).

– Задаем количество классов группировки и рассчитываем ширину класса (Лист «Данные»).

– Присваиваем каждому значению номер класса (Лист «Шаг 1 – обычный масштаб»).

– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – обычный масштаб»).

– Строим гистограмму в «натуральном» масштабе (Лист «Шаг 3 – обычный масштаб»).

В итоге получается что-то вот такое:


Гистограмма с правой асимметрией в натуральном масштабе


Как и предупреждали, наглядность полученного графика оставляет желать лучшего.

А теперь давайте построим гистограмму в логарифмическом масштабе. Последовательность действий точно такая же, кроме первого шага – данные необходимо логарифмировать:

– Логарифмируем данные. Пусть это будет натуральный логарифм – как сказано выше, основание логарифма не влияет на характер распределения (Лист «Лог. данные»).

– Определяем минимум, максимум и размах логарифмов (Лист «Лог. данные»).

– Задаем количество классов группировки и рассчитываем ширину класса по логарифмам (Лист «Лог. данные»).

– Присваиваем каждому значению номер класса (Лист «Шаг 1 – лог масштаб»).

– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – лог масштаб»).

– Строим гистограмму в логарифмическом масштабе (Лист «Шаг 3 – лог масштаб»).


Гистограмма с правой асимметрией в логарифмическом масштабе


Красивее же, правда? Необходимо отметить, что в реальной работе вам не придется выполнять все эти нудные операции – практически любое ПО, которым вы будете пользоваться, обладает способностью к построению гистограмм – как в натуральном, так и в логарифмическом масштабе. И переход между натуральным и логарифмическим масштабом обычно выполняется с помощью одной «галочки» в настройках графика. Но понимать, что именно произошло и как строить такую гистограмму, необходимо.

Суммируя: при построении логарифмической гистограммы вы работаете не с исходными данными, а с их логарифмами.

9

https://www.youtube.com/watch?v=vB73Ynza-0o

10

https://en.wikipedia.org/wiki/Slide_rule

11

https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Log_histo.xlsb

Базовая оценка минерализации. Ресурсный геолог

Подняться наверх