Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 12

2. НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
2.1.3. Вычисление доверительного интервала

Оглавление

Вычислив значения выборочной средней величины (или средневзвешенной величины)48 и среднего квадратического отклонения, можно построить доверительный интервал средней величины. Вычисление доверительного интервала для средней величины тесно связано с понятием доверительной вероятности, ошибки средней величины и предельной ошибкой выборки.

Доверительная вероятность определяет степень уверенности того факта, что измеренная величина находится вблизи среднего значения. Средняя ошибка выборки показывает объективно возникающее расхождение между характеристиками выборки и генеральной совокупностью, а предельная ошибка выборки – это ошибка выборки, исчисляемая с заданной степенью вероятности. Ошибка средней величины в выборке для количественного признака вычисляется по уравнению (8):


где S – выборочное среднее квадратическое отклонение; N – количество исследований.

Ошибка средней величины для долей вхождения признака в данные также вычисляется по уравнению (8) с той лишь разницей, что вместо выборочного среднего квадратического отклонения в уравнение подставляется среднее квадратическое отклонение долей исследуемого признака (уравнение 5).

Предельная ошибка выборки вычисляется по уравнению (9):


где значение t представлено в таблице 4.


В медицинских исследованиях доверительный интервал принимается равным (10)49:


где  – среднее значение исследуемой величины; Δlim – предельная ошибка выборки исследуемой величины.

В случае оценки доли фактора и отклонения долей величина доверительного интервала вычисляется по уравнению (11):


где – средняя доля исследуемого признака, определенная по уравнению (3); Δelim – предельная ошибка выборки долей вхождения признака в данные.

На рисунке 6 изображено графическое представление доверительного интервала при условии данных, распределенных в соответствии с нормальным (Гауссовым) законом.


Рисунок 6 – Доверительный интервал (уравнение 10) выборочного среднего значения (расстояние от белой вертикальной линии до зеленой вертикальной линии)


Пример вычисления доверительных интервалов

На примере значений веса пациентов с подтвержденным диагнозом «анорексия» (набор данных anorexia пакета MASS) проведем анализ доверительных интервалов весов и долей пациентов в контрольной группе, группе с когнитивно-поведенческой терапией и в группе с назначенной семейной терапией.


Листинг 5


library (MASS) # Подключаем библиотеку, содержащую набор данных anorexia

library (ggplot2)

#========================================================

# Выделяем из набора данных подгруппы пациентов с разным типом лечения

#========================================================

contData <– anorexia [anorexia$Treat==«Cont», ] $Prewt

cbtData <– anorexia [anorexia$Treat==«CBT», ] $Prewt

ftData <– anorexia [anorexia$Treat==«FT», ] $Prewt

#=====================================================

# Вычисляем средние значения

#=====================================================

meanCont <– mean (contData) # Средний вес в контрольной группе

meanCBT <– mean (cbtData) # Средний вес в когнитивно-поведенческой группе

meanFT <– mean (ftData) # Средний вес в группе семейной терапии

#========================================================

# Вычисляем среднее квадратическое отклонение

#========================================================

sdCont <– sd (contData) / (sqrt (length (contData))) # Среднее квадратическое

# отклонение веса в контрольной группе


Продолжение листинга 5


sdCBT <– sd (cbtData) / (sqrt (length (cbtData))) # Среднее квадратическое отклонение

# веса в когнитивно-поведенческой группе

sdFT <– sd (ftData) / (sqrt (length (ftData))) # Среднее квадратическое отклонение

# веса в группе семейной терапии

#=====================================================

# Вычисление доверительных интервалов в группах

#=====================================================

upCont <– meanCont+2*sdCont # Верхняя граница доверительного интервала в

# контрольной группе

downCont <– meanCont-2*sdCont # Нижняя граница доверительного интервала в

# контрольной группе

#=====================================================

upCBT <– meanCBT+2*sdCBT # Верхняя граница доверительного интервала в

# группе с когнитивно-поведенческой терапией

downCBT <– meanCBT-2*sdCBT # Нижняя граница доверительного интервала в

# группе с когнитивно-поведенческой терапией

#=====================================================

upFT <– meanFT+2*sdFT # Верхняя граница доверительного интервала в

# группе с семейной терапией

downFT <– meanFT-2*sdFT # Нижняя граница доверительного интервала в

# группе с семейной терапией

#=====================================================

# Построение графика средних значений и доверительных интервалов

#=====================================================

Продолжение листинга 5


dataAn <– data.frame (Type = c («Cont», «CBT», «FT»), Mean=c (meanCont, meanCBT, meanFT), Sd = c (sdCont, sdCBT, sdFT))

#=======================================================

grPP <– ggplot (data = dataAn, mapping = aes (Type, Mean))

grPP <– grPP + geom_point (mapping = aes (Type, Mean),colour=«blue», size=5)

grPP <– grPP + geom_errorbar (mapping = aes (ymin=Mean-2*Sd, ymax=Mean+2*Sd), colour=«red», linewidth=1.5,width = 0.5)

grPP <– grPP + theme_light ()

grPP <– grPP + theme(panel.border = element_rect (linewidth = 6, colour = «black»),

axis. title = element_text (size = 20, face = «bold», colour = «black»),

axis. text. x = element_text (size = 20, face = «bold», colour = «black»),

axis. text. y = element_text (size = 20, face = «bold», colour = «black»),

axis. ticks = element_line (linewidth = 3, colour = «black»),

legend. title = element_text (size = 20, face = «bold», color = «black»),

legend. text = element_text (size = 20, face = «bold», color = «black»))

grPP <– grPP + labs (x=«Therapy type», y=«Weight, kg»)

print (grPP)

#=====================================================

# Вывод графика

#=====================================================


На рисунке 7 изображено графическое представление средних значений веса с доверительными интервалами трех исследуемых групп пациентов до проведения терапии.


Рисунок 7 – Средние значения (синие кружочки) и доверительный интервал для доверительной вероятности 95,5% (красные линии, нижние и верхние горизонтальные линии обозначают границы доверительных интервалов) веса пациентов в трех группах (Cont – контрольной группе; CBT – группе с назначенной когнитивно-поведенческой терапией; FT – с назначенной семейной терапией) до проведения терапии


На примере того же набора данных продемонстрируем вычисление вероятности нахождения пациента с определенным весом в определенной группе и вычислим доверительный интервал для этой вероятности.


Листинг 6


# Вычисляем количество пациентов до прохождения лечения

#=====================================================

lenPrewt <– length (anorexia$Prewt) #Общее количество данных


Продолжение листинга 6


lenContPrew <– length (anorexia [anorexia$Treat==«Cont», ] $Prewt) # Количество

# данных в контрольной группе

lenCBTPrewt <– length (anorexia [anorexia$Treat==«CBT», ] $Prewt) # Количество

# данных в группе с когнитивно-поведенческой терапией

lenBTPrew <– length (anorexia [anorexia$Treat==«FT», ] $Prewt) # Количество

# данных в группе с семейной терапией

#=====================================================

# Вычисляем доли пациентов в каждой группе

#=====================================================

pCP <– lenContPrew/ lenPrewt # Доля в контрольной группе

pCBTP <– lenCBTPrewt/ lenPrewt # Доля в когнитивно-поведенческой группе

pBTP <– lenBTPrew/lenPrewt # Доля в семейной группе

#=====================================================

sdCP <– sqrt (pCP* (1-pCP)) # Среднее квадратичное отклонение долей в

# контрольной группе

sdCBT <– sqrt (pCBTP* (1- pCBTP))

sdBT <– sqrt (pBTP* (1- pBTP))

#=====================================================

# Результаты вычисления

#=====================================================

dataAn <– data.frame (Type = c («Cont», «CBT», «FT»), Mean=c (pCP, pCBTP, pBTP),

Sd = c (sdCP, sdCBT, sdBT))

#=====================================================

grPP <– ggplot (data = dataAn, mapping = aes (Type, Mean))

grPP <– grPP + geom_point (mapping = aes (Type, Mean),colour=«blue», size=5)


Продолжение листинга 6


grPP <– grPP + geom_errorbar (mapping = aes (ymin=Mean-2*Sd, ymax=Mean+2*Sd), colour=«red», linewidth=1.5,width = 0.5)

grPP <– grPP + theme_light ()

grPP <– grPP + theme(panel.border = element_rect (linewidth = 6, colour = «black»),

axis. title = element_text (size = 20, face = «bold», colour = «black»),

axis. text. x = element_text (size = 20, face = «bold», colour = «black»),

axis. text. y = element_text (size = 20, face = «bold», colour = «black»),

axis. ticks = element_line (linewidth = 3, colour = «black»),

legend. title = element_text (size = 20, face = «bold», color = «black»),

legend. text = element_text (size = 20, face = «bold», color = «black»))

grPP <– grPP + labs (x=«Therapy type», y=«Proportion of patients»)

print (grPP)

#=====================================================

# Вывод графика

#=====================================================


На рисунке 8 графически изображены средние значения долей пациентов со средними квадратичными отклонениями в каждой из исследуемых групп пациентов до прохождения лечения.


Рисунок 8 – Доля пациентов в каждой группе (синяя точка) и доверительный интервал для 95,5% доверительной вероятности (красные линии обозначают ширину доверительного интервала, горизонтальными линиями обозначены границы доверительного интервала) доли пациентов в каждой группе пациентов, с назначенными различными типами терапии (Cont – контрольной группе; CBT – группе с назначенной когнитивно-поведенческой терапией; FT – с назначенной семейной терапией)


Сравнение доверительных интервалов и долей показывает, что все три группы достаточно близки друг к другу, что позволяет выдвинуть гипотезу об отсутствии статистически значимых различий. Данная гипотеза требует дальнейшего подтверждения или опровержения посредством статистических критериев.

48

См.: параграф 2.1.1. Выборочное среднее.

49

Херцог М., Френсис Г., Кларк А. [и др.]. Статистика и планирование эксперимента для непосвященных: как отучить статистику лгать. М.: ДМК Пресс, 2023. 174 с.

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие

Подняться наверх