Читать книгу Базовая оценка минерализации. Ресурсный геолог - - Страница 9

ГЛАВА 1. СОЗДАНИЕ И ОБРАБОТКА РУДНОЙ ВЫБОРКИ
Общий статистический анализ одной величины
Гистограмма

Оглавление

В большинстве случае объем выборки таков, что ее невозможно всю «охватить взглядом». Однако желание понять, что из себя представляет тот массив данных, который есть в распоряжении, возникает сразу же после появления этого массива. И одним из наилучших способов получить это понимание является графический, поскольку подавляющее количество информации человек получает с помощью зрения. Просто просмотр числовых значений при большом объеме выборки мало что дает, поэтому хочется как-то «генерализовать» всю эту информацию. Для такой генерализации и визуального представления существует очень полезный вид диаграмм, называемый гистограммами. Гистограммы представляют собой столбчатый график, в котором по горизонтали отложены значения изучаемой величины, по вертикали – частота встречаемости значений, а все данные сгруппированы в то или иное количество классов содержаний равной величины и представлены, соответственно, столбцами. Равенство классов в данном случае означает равенство разброса содержаний (не количества наблюдений!) в каждом классе.


Гистограмма


Методика построения гистограммы проста и незамысловата:

– Определяем размах изучаемой величины.

– Решаем, на какое количество классов содержаний будем разбивать наши данные. Количество классов содержаний – это количество столбцов на создаваемой гистограмме (точнее, максимальное количество столбцов). Например, мы определили, что размах содержаний составляет 100 г/т – от 0 г/т до 100 г/т. Далее мы захотели разбить весь диапазон на 10 классов содержаний (о выборе количества классов содержаний чуть дальше). В этом случае границы классов будут следующими: от 0 до 10 г/т, от 10 до 20 г/т, от 20 до 30 г/т… от 90 до 100 г/т.

– Для каждого класса содержаний подсчитываем количество проб, попавших в класс. При подсчете обычно в класс включают нижнюю границу – т. е. содержание 10 г/т войдет в класс от 10 до 20 г/т, а не в класс от 0 до 10 г/т. Хотя возможна и обратная схема. Но в любом случае – схема включения граничных содержаний должна быть едина, и каждая проба должна быть учтена только в одном классе.

– На оси абсцисс (горизонтальной, если забыли) отмечаем границы классов, на оси ординат (вертикальной) размечаем масштаб. И для каждого класса содержаний строим прямоугольник, такой, что вертикальные стороны совпадают с границами классов, а высота равна количеству проб в данном классе с учетом выбранного масштаба. В итоге должно получиться что-то, похожее на диаграмму, приведенную выше (с учетом особенностей используемого распределения).

Можно вместо натуральных величин частоты (т. е. «штук») использовать долю проб в данном классе от общего количества проб – количество проб не всегда информативно. Характер гистограммы от этого не изменится, поменяется только вертикальный масштаб.


Гистограмма


Если длина проб резко различна, то имеет смысл использовать взвешивание – в этом случае на длину пробы. Случается, что визуально видимую минерализацию опробуют более детально – секциями меньшего размера, тогда как слабо проявленные околорудные изменения – более длинными пробами. Гистограмма, построенная по количеству проб, в этом случае неправильно отражает характер распределения содержаний, и вместо количества проб в каждом классе в этом случае лучше подсчитывать суммарную длину проб. То есть в данном случае имеет смысл выполнять взвешивание на длину. Сравните две гистограммы ниже. Они построены по одним и тем же данным. Но гистограмма слева построена без взвешивания на длину, а справа – со взвешиванием. Очевидно, характер гистограмм несколько различен.


Гистограмма без взвешивания (слева) и со взвешиванием на длину пробы (справа)


Взвешивание также имеет смысл выполнять при наличии участков, освещенных сетями разной плотности. В этом случае взвешивание должно выполняться на так называемый вес декластеризации (об этом чуть дальше).

Гистограмма – довольно удобный инструмент, который легко позволяет получить представление о характере распределения значений исследуемой величины по диапазону значений. По внешнему виду гистограммы можно судить о том, является ли выборка однородной или нет. Под однородностью понимается принадлежность всех значений изучаемой величины к одной и той же генеральной совокупности. Обычно однородные выборки одномодальные – т. е. на гистограммах таких выборок присутствует только один «горб». Наличие нескольких таких «горбов» может говорить о том, что в выборку попали значения, имеющие разную природу: например, пробы из стержневой жилы и зоны околорудных изменений или из минерализованных зон разных стадий рудообразования с разной продуктивностью. Или из первичных руд и из зоны окисления – причин может быть масса. Однако кроме естественных причин могут быть и причины технического характера.

Выше при объяснении механизма построения гистограммы было сказано, что диапазон значений разбивается на некоторое количество классов содержаний. Однако ничего не было сказано о том, как выбирается количество классов. Вопрос о количестве классов, на которые разбивать диапазон значений, не имеет однозначного ответа. «Классическим» вариантом разбивки на классы считается формула Стерджесса.

Количество классов ≈ 1 +3.22 * lg (N),


Здесь N – численность выборки, lg – десятичный логарифм.

Формула является эмпирической, т. е. ее единственное обоснование: «всегда так делали, и хорошо получалось».

Основной недостаток этой формулы – слишком малое количество классов, которое на больших выборках зачастую не позволяет увидеть важные особенности. Рост количества классов полностью объясняется особенностью поведения логарифма: сначала относительно быстрый рост, а затем замедление. На рисунке ниже можно увидеть зависимость между численностью выборки и количеством классов, определенных согласно этой формуле.

Выборку в 100 тыс. записей данное правило рекомендует разбить на 18 классов, в 200 тыс. – на 19, в 1 млн – только на 21. При построении гистограмм в соответствии с данной формулой можно увидеть только что-то очень явное, что чаще всего «и так понятно».


Зависимость между численностью выборки и количеством классов


Эта особенность применяемого правила, скорее всего, объясняется тем, что во времена создания «классической» статистики обычная численность выборки составляла несколько сотен замеров. В настоящее же время объемы выборок принципиально возросли и применение этой формулы может быть не вполне оправдано.

Обычно количество классов подбирается таким образом, чтобы на гистограмме были видны важные особенности, но при этом гистограмма продолжала бы быть похожей на гистограмму, а не на творение художника-абстракциониста или на картинку с одинокими столбцами, разделенными «белым безмолвием». Обычно количество классов не превышает 50 (для выборок объема в несколько десятков тысяч значений). При избыточном количестве классов на небольших выборках очень несложно обнаружить неоднородность, обусловленную исключительно разбиением на классы. На рисунке ниже представлена гистограмма, построенная для выборки в 1000 записей, представляющих собой сгенерированное однородное (нормальное) распределение со средним 20 и стандартным отклонением 5. N для данного рисунка – количество классов разбиения.


Гистограммы с различным количеством классов разбиения по выборке в 1000 записей


Можно видеть, что для выборки в 1000 значений при количестве классов, существенно превышающем правило Стерджесса, появляется ложная неоднородность (второй «горб») с границей в районе 28.

В то же время при достаточно большом количестве наблюдений получить искусственную неоднородность уже довольно сложно. На рисунке ниже показана аналогичная выборка, но с числом наблюдений 10000. То есть для выборки в 10000 наблюдений даже при десятикратном превышении правила Стерджесса явной неоднородности не отмечается. Нижняя граница численности выборки, после которой можно не очень опасаться искусственной неоднородности, вероятно, находится на уровне 4—5 тыс. наблюдений (в принципе, не очень большая редкость для геологии). При меньшем количестве классов, вероятно, не стоит кратно превышать те цифры, которые дает правило Стерджесса.


Гистограммы с различным количеством классов разбиения по выборке в 10000 записей

Базовая оценка минерализации. Ресурсный геолог

Подняться наверх