Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 12
2. НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
2.1.3. Вычисление доверительного интервала
ОглавлениеВычислив значения выборочной средней величины (или средневзвешенной величины)48 и среднего квадратического отклонения, можно построить доверительный интервал средней величины. Вычисление доверительного интервала для средней величины тесно связано с понятием доверительной вероятности, ошибки средней величины и предельной ошибкой выборки.
Доверительная вероятность определяет степень уверенности того факта, что измеренная величина находится вблизи среднего значения. Средняя ошибка выборки показывает объективно возникающее расхождение между характеристиками выборки и генеральной совокупностью, а предельная ошибка выборки – это ошибка выборки, исчисляемая с заданной степенью вероятности. Ошибка средней величины в выборке для количественного признака вычисляется по уравнению (8):
где S – выборочное среднее квадратическое отклонение; N – количество исследований.
Ошибка средней величины для долей вхождения признака в данные также вычисляется по уравнению (8) с той лишь разницей, что вместо выборочного среднего квадратического отклонения в уравнение подставляется среднее квадратическое отклонение долей исследуемого признака (уравнение 5).
Предельная ошибка выборки вычисляется по уравнению (9):
где значение t представлено в таблице 4.
В медицинских исследованиях доверительный интервал принимается равным (10)49:
где X̅ – среднее значение исследуемой величины; Δlim – предельная ошибка выборки исследуемой величины.
В случае оценки доли фактора и отклонения долей величина доверительного интервала вычисляется по уравнению (11):
где X̅e – средняя доля исследуемого признака, определенная по уравнению (3); Δelim – предельная ошибка выборки долей вхождения признака в данные.
На рисунке 6 изображено графическое представление доверительного интервала при условии данных, распределенных в соответствии с нормальным (Гауссовым) законом.
Рисунок 6 – Доверительный интервал (уравнение 10) выборочного среднего значения (расстояние от белой вертикальной линии до зеленой вертикальной линии)
Пример вычисления доверительных интервалов
На примере значений веса пациентов с подтвержденным диагнозом «анорексия» (набор данных anorexia пакета MASS) проведем анализ доверительных интервалов весов и долей пациентов в контрольной группе, группе с когнитивно-поведенческой терапией и в группе с назначенной семейной терапией.
Листинг 5
library (MASS) # Подключаем библиотеку, содержащую набор данных anorexia
library (ggplot2)
#========================================================
# Выделяем из набора данных подгруппы пациентов с разным типом лечения
#========================================================
contData <– anorexia [anorexia$Treat==«Cont», ] $Prewt
cbtData <– anorexia [anorexia$Treat==«CBT», ] $Prewt
ftData <– anorexia [anorexia$Treat==«FT», ] $Prewt
#=====================================================
# Вычисляем средние значения
#=====================================================
meanCont <– mean (contData) # Средний вес в контрольной группе
meanCBT <– mean (cbtData) # Средний вес в когнитивно-поведенческой группе
meanFT <– mean (ftData) # Средний вес в группе семейной терапии
#========================================================
# Вычисляем среднее квадратическое отклонение
#========================================================
sdCont <– sd (contData) / (sqrt (length (contData))) # Среднее квадратическое
# отклонение веса в контрольной группе
Продолжение листинга 5
sdCBT <– sd (cbtData) / (sqrt (length (cbtData))) # Среднее квадратическое отклонение
# веса в когнитивно-поведенческой группе
sdFT <– sd (ftData) / (sqrt (length (ftData))) # Среднее квадратическое отклонение
# веса в группе семейной терапии
#=====================================================
# Вычисление доверительных интервалов в группах
#=====================================================
upCont <– meanCont+2*sdCont # Верхняя граница доверительного интервала в
# контрольной группе
downCont <– meanCont-2*sdCont # Нижняя граница доверительного интервала в
# контрольной группе
#=====================================================
upCBT <– meanCBT+2*sdCBT # Верхняя граница доверительного интервала в
# группе с когнитивно-поведенческой терапией
downCBT <– meanCBT-2*sdCBT # Нижняя граница доверительного интервала в
# группе с когнитивно-поведенческой терапией
#=====================================================
upFT <– meanFT+2*sdFT # Верхняя граница доверительного интервала в
# группе с семейной терапией
downFT <– meanFT-2*sdFT # Нижняя граница доверительного интервала в
# группе с семейной терапией
#=====================================================
# Построение графика средних значений и доверительных интервалов
#=====================================================
Продолжение листинга 5
dataAn <– data.frame (Type = c («Cont», «CBT», «FT»), Mean=c (meanCont, meanCBT, meanFT), Sd = c (sdCont, sdCBT, sdFT))
#=======================================================
grPP <– ggplot (data = dataAn, mapping = aes (Type, Mean))
grPP <– grPP + geom_point (mapping = aes (Type, Mean),colour=«blue», size=5)
grPP <– grPP + geom_errorbar (mapping = aes (ymin=Mean-2*Sd, ymax=Mean+2*Sd), colour=«red», linewidth=1.5,width = 0.5)
grPP <– grPP + theme_light ()
grPP <– grPP + theme(panel.border = element_rect (linewidth = 6, colour = «black»),
axis. title = element_text (size = 20, face = «bold», colour = «black»),
axis. text. x = element_text (size = 20, face = «bold», colour = «black»),
axis. text. y = element_text (size = 20, face = «bold», colour = «black»),
axis. ticks = element_line (linewidth = 3, colour = «black»),
legend. title = element_text (size = 20, face = «bold», color = «black»),
legend. text = element_text (size = 20, face = «bold», color = «black»))
grPP <– grPP + labs (x=«Therapy type», y=«Weight, kg»)
print (grPP)
#=====================================================
# Вывод графика
#=====================================================
На рисунке 7 изображено графическое представление средних значений веса с доверительными интервалами трех исследуемых групп пациентов до проведения терапии.
Рисунок 7 – Средние значения (синие кружочки) и доверительный интервал для доверительной вероятности 95,5% (красные линии, нижние и верхние горизонтальные линии обозначают границы доверительных интервалов) веса пациентов в трех группах (Cont – контрольной группе; CBT – группе с назначенной когнитивно-поведенческой терапией; FT – с назначенной семейной терапией) до проведения терапии
На примере того же набора данных продемонстрируем вычисление вероятности нахождения пациента с определенным весом в определенной группе и вычислим доверительный интервал для этой вероятности.
Листинг 6
# Вычисляем количество пациентов до прохождения лечения
#=====================================================
lenPrewt <– length (anorexia$Prewt) #Общее количество данных
Продолжение листинга 6
lenContPrew <– length (anorexia [anorexia$Treat==«Cont», ] $Prewt) # Количество
# данных в контрольной группе
lenCBTPrewt <– length (anorexia [anorexia$Treat==«CBT», ] $Prewt) # Количество
# данных в группе с когнитивно-поведенческой терапией
lenBTPrew <– length (anorexia [anorexia$Treat==«FT», ] $Prewt) # Количество
# данных в группе с семейной терапией
#=====================================================
# Вычисляем доли пациентов в каждой группе
#=====================================================
pCP <– lenContPrew/ lenPrewt # Доля в контрольной группе
pCBTP <– lenCBTPrewt/ lenPrewt # Доля в когнитивно-поведенческой группе
pBTP <– lenBTPrew/lenPrewt # Доля в семейной группе
#=====================================================
sdCP <– sqrt (pCP* (1-pCP)) # Среднее квадратичное отклонение долей в
# контрольной группе
sdCBT <– sqrt (pCBTP* (1- pCBTP))
sdBT <– sqrt (pBTP* (1- pBTP))
#=====================================================
# Результаты вычисления
#=====================================================
dataAn <– data.frame (Type = c («Cont», «CBT», «FT»), Mean=c (pCP, pCBTP, pBTP),
Sd = c (sdCP, sdCBT, sdBT))
#=====================================================
grPP <– ggplot (data = dataAn, mapping = aes (Type, Mean))
grPP <– grPP + geom_point (mapping = aes (Type, Mean),colour=«blue», size=5)
Продолжение листинга 6
grPP <– grPP + geom_errorbar (mapping = aes (ymin=Mean-2*Sd, ymax=Mean+2*Sd), colour=«red», linewidth=1.5,width = 0.5)
grPP <– grPP + theme_light ()
grPP <– grPP + theme(panel.border = element_rect (linewidth = 6, colour = «black»),
axis. title = element_text (size = 20, face = «bold», colour = «black»),
axis. text. x = element_text (size = 20, face = «bold», colour = «black»),
axis. text. y = element_text (size = 20, face = «bold», colour = «black»),
axis. ticks = element_line (linewidth = 3, colour = «black»),
legend. title = element_text (size = 20, face = «bold», color = «black»),
legend. text = element_text (size = 20, face = «bold», color = «black»))
grPP <– grPP + labs (x=«Therapy type», y=«Proportion of patients»)
print (grPP)
#=====================================================
# Вывод графика
#=====================================================
На рисунке 8 графически изображены средние значения долей пациентов со средними квадратичными отклонениями в каждой из исследуемых групп пациентов до прохождения лечения.
Рисунок 8 – Доля пациентов в каждой группе (синяя точка) и доверительный интервал для 95,5% доверительной вероятности (красные линии обозначают ширину доверительного интервала, горизонтальными линиями обозначены границы доверительного интервала) доли пациентов в каждой группе пациентов, с назначенными различными типами терапии (Cont – контрольной группе; CBT – группе с назначенной когнитивно-поведенческой терапией; FT – с назначенной семейной терапией)
Сравнение доверительных интервалов и долей показывает, что все три группы достаточно близки друг к другу, что позволяет выдвинуть гипотезу об отсутствии статистически значимых различий. Данная гипотеза требует дальнейшего подтверждения или опровержения посредством статистических критериев.
48
См.: параграф 2.1.1. Выборочное среднее.
49
Херцог М., Френсис Г., Кларк А. [и др.]. Статистика и планирование эксперимента для непосвященных: как отучить статистику лгать. М.: ДМК Пресс, 2023. 174 с.