Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 14

2. НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
2.1.5. Понятие о квантилях, децилях, квартилях распределения

Оглавление

При проведении статистического анализа данных возникает необходимость оценки значения, соответствующего 5%52 от общего количества данных или 95% от общего количества данных. Для этих целей применяются различные уровни квантилей.

Квантили – это значения, которые делят упорядоченную выборку на равные доли.

Допустим, имеется произвольный ряд десятичных чисел:


85.50 99.69 37.19 47.43 40.26 93.58 68.97 19.50 87.39 43.81 42.96 6.985.22 62.67 47.16 76.30 69.56 59.40 92.33 31.22 41.59 33.27 30.25 36.7749.43 33.85 27.44 8.45 99.84 52.81


Нам необходимо определить, какое значение соответствует 5% в представленном ряду значений. Для решения данной задачи необходимо выстроить числа ряда в порядке возрастания (от меньшего к большему):


5.21 6.98 8.45 19.50 27.44 30.25 31.22 33.27 33.85 36.77 37.18 40.26 41.59 42.96 43.81 47.16 47.43 49.43 52.81 59.40 62.67 68.97 69.56 76.30 85.50 87.39 92.33 93.58 99.69 99.84


В данном ряду содержится 30 значений, номер значения, соответствующего 5% данного ряда, равен 1.5, т.е. между первым и вторым значением соответственно квантиль будет равен:


Децили – значения, которые делят упорядоченную выборку на десять примерно равных частей. Допустим, необходимо разделить ряд, представленный выше, на 10 равных частей с шагом в 10%, тогда децили будут равны (процедура поиска значения, соответствующего каждому проценту, такая же, как в описанном выше примере):


Наиболее часто применяемыми на практике являются квартили – значения, которые делят упорядоченную выборку на четыре примерно равные части. Для приведенного ранее ряда значения квартилей равны:


На языке программирования R вычисление квартилей проводится с помощью функции quantile (), входящей в пакет stats. На практике наиболее часто применяются первый и третий квартили, межквартильный интервал представлен на рисунке 10.


Рисунок 10 – Межквартильный интервал (между первым и третьим квартилем) представлен зелеными вертикальными линиями


В межквартильном интервале находятся 50% всех встречаемых значений измеряемой величины. Первый квартиль ограничивает слева 25% (первая зеленая вертикальная линия при просмотре рисунка 10 слева направо) значений, а третий – 75% (вторая зеленая вертикальная линия при просмотре рисунка 10 слева направо).


Пример вычисления квантилей, децилей и квартилей

На примере набора данных anorexia из пакета MASS, содержащих информацию о весе пациентов с подтвержденным диагнозом «анорексия», рассмотрим вычисления квантилей, децилей и квартилей массы тела пациентов в контрольной группе, в группе с назначенной когнитивно-поведенческой терапией и семейной терапией.


Листинг 8


library (MASS) # Подключаем библиотеку, содержащую набор данных anorexia

Продолжение листинга 8


library (ggplot2) #Подключаем библиотеку построения графиков

#=======================================================

# Выделяем из набора данных подгруппы пациентов с разным типом

# назначенного лечения

#=======================================================

contData <– anorexia [anorexia$Treat==«Cont», ] $Prewt #Вес пациентов в

# контрольной группе до проведения лечения

cbtData <– anorexia [anorexia$Treat==«CBT», ] $Prewt # Вес пациентов в группе

# с назначенным когнитивно-поведенческим лечением до проведения лечения

ftData <– anorexia [anorexia$Treat==«FT», ] $Prewt # Вес пациентов в группе

# с назначенной семейной терапией

#=======================================================

#Задаем значения интересующих нас квантилей

propQ <– c (0.05, 0.95)

propDec <– c (0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0)

propQvar <– c (0.25, 0.5, 0.75, 1.0)

#=======================================================

contQuan <– quantile (contData, propQ, type = 4)

print (contQuan)

cbtQuan <– quantile (cbtData, propQ, type = 4)

print (cbtQuan)

ftQuan <– quantile (ftData, propQ, type = 4)

print (ftQuan)

52

Значения в процентах выбраны произвольно, чаще это 25 % и 75 %.

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие

Подняться наверх