Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 15

2. НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
2.1.6. Вычисление медианы

Оглавление

Выборочное среднее значение при большом объеме данных, распределенных в соответствии с нормальным законом, стремится к моде53 или наиболее вероятному значению в данной выборке. Такая оценка значений не всегда бывает адекватной, особенно в случае наличия аномалий (значений существенно меньших или существенно больших, чем большинство значений из выборочной совокупности). Для более адекватного описания всей совокупности при наличии выбросов или данных, распределенных отлично от нормального закона распределения, лучше использовать медианную оценку, или медиану – это значение, которое разделяет ранжированную по возрастанию выборку пополам (50% квантиль).

Предположим, имеется упорядоченный по возрастанию ряд чисел 1, 4, 6, 9, 11. Центр этого ряда составляет число 6, это и будет медианой данного ряда. В случае, если ряд имеет четное число значений, то медианой будет являться среднее арифметическое значение между двумя центральными значениями. Например, имеется ряд чисел, упорядоченных по возрастанию: 1, 4, 6, 9, 11, 12 – двумя центральными значениями будут являться 6 и 9, их среднее арифметическое значение равно 7,5 – оно и будет являться медианой.


Пример вычисления медианы

Рассмотрим вычисление медианы на наборе данных anorexia из пакета MASS. Рассчитаем медиану веса пациентов до прохождения лечения в контрольной группе, группе пациентов с предписанной когнитивно-поведенческой терапией и в группе с семейной терапией.


Листинг 9


library (MASS) # Подключаем пакет, содержащий набор данных anorexia

#Вычисляем медиану в контрольной группе пациентов

median (anorexia [anorexia$Treat==«Cont», ] $Prewt)

#=======================================================

# Результат вычисления

#=======================================================

[1] 80.65

#Вычисляем медиану в группе с когнитивно-поведенческой терапией

median (anorexia [anorexia$Treat==«CBT», ] $Prewt)

#=======================================================

#Результат вычисления

#=======================================================

[1] 82.6

#Вычисляем медиану в группе с семейной терапией

median (anorexia [anorexia$Treat==«FT», ] $Prewt)

#=======================================================

#Результат вычисления

#=======================================================

[1] 83.3


Результаты вычислений показывают, что медианная оценка веса пациентов с подтвержденным диагнозом «анорексия» во всех трех группах примерно равна выборочному среднему значению (см. пример в п. 2.1.1), что согласуется с одним из свойств нормального закона распределения количественной величины – медиана, среднее и мода приблизительно равны между собой.

Все значения проведенного базового статистического анализа обобщаются в виде таблицы значений. В таблице 5 представлен пример сводной таблицы базового статистического анализа, проведенного для пациентов с подтвержденным диагнозом anorexia.


Хорошей иллюстрацией для обобщения базового статистического анализа является так называемый ящик с усами – диаграмма размаха, на которой в графическом виде представлен базовый статистический анализ результатов, рассчитанный на основе межквартильного интервала (рисунок 11).


Рисунок 11 – Диаграмма размаха «ящик с усами» веса пациентов: а – до прохождения лечения; б – после прохождения лечения


Центральная (жирная линия) ящика означает медиану, нижняя граница ящика (прямоугольника) означает первый квартиль распределения значений, верхняя граница ящика (прямоугольника) – третий квартиль распределения исследуемой величины (в данном случае веса пациентов), «усы ящика» вычисляются по уравнениям (12, 13):


где Udown – значение нижней границы «усов ящика»; – Q1 первый квартиль; IQR – межквартильный интервал.


где Uup – значение верхней границы усов ящика; Q– третий квартиль; IQR – межквартильный интервал.

Точки, выходящие за пределы длины «усов», могут считаться аномальными (значения, сильно отличающиеся в большую или меньшую сторону от основной совокупности значений).

По результатам проведенного базового анализа выдвигается статистическая гипотеза, которая в результате применения различных статистических тестов и/или критериев принимается или отклоняется.

53

Значение исследуемой переменной, которое встречается наиболее часто в исследуемых данных.

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие

Подняться наверх