Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 18

4. ФОРМУЛИРОВКА НУЛЕВОЙ ГИПОТЕЗЫ

Оглавление

Одним из подходов предварительной формулировки нулевой гипотезы является построение гистограмм распределения случайной величины. На рисунке 13 представлена гистограмма распределения абстрактной случайной величины X.


Рисунок 13 – Гистограмма распределения абстрактной случайной величины X


По виду диаграммы можно сделать предположение о близости типа распределения случайной величины к нормальному закону. Однако не стоит забывать о том, что данное предположение будет являться нулевой гипотезой, которая требует дальнейшей проверки59.

Требование проверки нулевой гипотезы связано с особенностью построения гистограммы распределения случайной величины, а именно с выбором ширины интервалов, в которых подсчитывается число попаданий случайных значений. На рисунке 14 представлены изменения гистограммы случайной величины X (рисунок 13).


Рисунок 14 – Изменение вида гистограммы распределения случайной величины X в зависимости от выбора ширины интервалов, в которых подсчитывается количество случайных величин, попавших в данный интервал: а – зауженный интервал; б – интервал увеличенной ширины; в – интервал средней ширины; г – широкий интервал


В результате предварительного анализа гистограммы, представленной на рисунке 14а, можно выдвинуть нулевую гипотезу о принадлежности распределения случайной величины X близко к дискретному типу распределения.

Результатом визуального анализа гистограммы, представленной на рисунке 14б, может служить постановка нулевой гипотезы о мультимодальности распределения случайной величины Х (в этом случае необходимо проверить сложную статистическую гипотезу; рассмотрение анализа сложных статистических гипотез выходит за рамки данного пособия).

Анализ гистограммы, представленной на рисунке 14в, может стать основой для формулирования нулевой гипотезы о принадлежности распределения случайной величины к нормальному закону распределения.

Таким образом, гистограмма является точкой начала отсчета для формулировки нескольких нулевых гипотез, которые должны быть проверены различными статистическими критериями.

4.1. Расчет оптимального интервала на гистограмме

Расчет оптимального количества интервалов и диапазона значений, попадающих в интервал гистограммы распределения, является важной составляющей базовой статистики и может служить основой для выделения групп равномерно распределенных данных и выработки классификации на их основе. В настоящем пособии рассматривается несколько простых подходов расчета оптимального количества интервалов и диапазона изменения значений. Первый подход основан на эвристической формуле Стерджесса (14)60:


где N – объем анализируемой выборки (количество значений); n – количество интервалов разбиения данных.

В работе61, описывающей применение статистического анализа при контроле качества продукции, применяют уравнение Брукса—Каррузера (15):


Наиболее простым методом оценки количества интервалов является (16)62:


При больших объемах данных рекомендуется использовать уравнение (17)63:


После расчета количества интервалов разбиения гистограммы распределения проводят вычисления ширины интервала по уравнению (18):


где max (X) – максимальное значение исследуемой переменной X; min (X) – минимальное значение исследуемой переменной X; n – количество интервалов на гистограмме.

Соответственно, с использованием уравнения (18) вычисляются первый и последующие интервалы по уравнению (19):


где Xi+1 – правая граница i-го интервала, не превышающая max (X); Xi – левая граница i-го интервала, начало отсчета которой равно min (X).

Высота столбца диаграммы определяется по уравнению (20):


где N – общее количество исследований; N– количество исследований в i-м интервале; Hi – высота интервала.

Более точная (и она же более сложная) оценка размера интервала может быть получена при оценках статистической мощности64, данный подход не рассматривается в настоящем пособии.

4.2. Построение гистограмм распределения на языке R

В языке программирования R существует несколько способов построения гистограмм распределения случайной величины:

– с применением функции hist (), входящей в пакет graphics;

– посредством функции geom_histogram (), входящей в состав пакета ggplot2;

– с помощью столбчатой диаграммы с предварительным расчетом частот и интервалов распределения величин. Построение столбчатых диаграмм можно произвести с помощью:

– функции barplot (), входящей в пакет graphics;

– функции geom_bar (), входящей в пакет ggplot2.

В примерах данной главы приведены все перечисленные способы построения гистограммы распределений.


Примеры построения гистограмм распределений на языке R

Для построения диаграмм распределения использовались данные по выживаемости заболевших вирусом иммунодефицита, собранных в Австралии после 1 июля 1991 года. Все данные содержатся в пакете MASS, наборе данных Aids2.


Листинг 10


#Построение гистограммы распределения с помощью функции hist () пакета graphics

library («MASS») #Подключаем пакет MASS, содержащий набор данных Aids2

N <– length (Aids2$Age) #Вычисляем количество пациентов в наборе данных

dBreak <-5*log10 (N) #Определяем количество интервалов для гистограммы

dBreak <– round (dBreak) #Округляем значение до целых чисел

dX <– (max (Aids2$Age) -min (Aids2$Age)) / dBreak #Рассчитываем шаг

step <– seq (min (Aids2$Age),max (Aids2$Age), dX) # Вектор интервалов

hist (x = Aids2$age, break = step, xlab= «Возраст выявления, полных лет»,

ylab = «Количество, чел», main = «Выживаемость, заболевших СПИДом»,

col = «blue») #Строим гистограмму распределения возрастов пациентов с

# с выявленным вирусом иммунодефицита

# x – вектор значений исследуемых распределений, полученный из Data Frame

Продолжение листинга 10


#;

# break – количество участков на гистограмме;

# xlab – подпись оси ОХ;

# ylab – подпись оси OY;

# main – название гистограммы;

# col – задание цвета гистограммы распределения.


Результат выполнения данной команды представлен на рисунке 15.


Рисунок 15 – Результат применения функции

hist () из пакета grahics


Функция hist () хороша для применения при необходимости быстро построить гистограмму и посмотреть на распределение данных, однако более гибким инструментом для построения и дальнейшей публикации гистограмм является функция geom_histogram (), входящая в пакет ggplot2.


Листинг 11


# Построение гистограммы распределения с помощью функции

# geom_histogram () пакета ggplot2

library («MASS») # Подключаем пакет MASS, содержащий набор данных Aids2

library («ggplot2») # Подключаем пакет ggplot2, содержащий функцию # geom_histogram ()

p <– ggplot () #Создаем объект p, содержащий65 слои графика

p <– p + geom_histogram (mapping = aes (x= Aids2$age), fill= «blue», binwith=30)

p <– p+labs (x = «Возраст выявления, полных лет»,

y= «Количество, чел»,

title = «Выживаемость, заболевших СПИДом»)

print (p)


Результат выполнения кода листинга 11 представлен на рисунке 16.

59

Кендалл М., Стьюарт А. Теория распределений. М.: Наука, 1966. 588 с.

60

Herbert A. S. The choice of a class interval // Journal of the American statistical association. 1926. Vol. 21, №153. Р. 65—66.

61

Шторм Р. Теория вероятностей. Математическая статистика. Статистический контроль качества. М.: Мир, 1970. 368 с.

62

Heinhold I., Gaede K. W. Ingeniur statistic. München; Wien, Springler Verlag, 1964. 352 p.

63

Ченцов Н. Н. Статистические решающие правила и оптимальные выводы. М.: Наука, 1972. 520 с.

64

Лемешко Б. Ю., Чимитова Е. В. О выборе числа интервалов в критериях согласия типа c2 // Заводская лаборатория. Диагностика материалов. 2003. Т. 69, №1. С. 61—67.

65

Более подробно структура и применение пакета ggplot2 представлена в работе: Мастицкий С. Э. Визуализация данных с помощью ggplot2. М.: ДМК Пресс, 2017. 222 с.

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие

Подняться наверх