Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 17
3. ПОНЯТИЕ О СТАТИСТИЧЕСКОЙ ГИПОТЕЗЕ
ОглавлениеСтатистическая гипотеза – выдвинутое предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть применением статистических методов к данным, содержащимся в исследуемой выборке54.
Пусть в эксперименте доступна наблюдению случайная величина X, распределение которой P полностью или частично неизвестно. Тогда любое утверждение относительно P называется статистической гипотезой. Выше были представлены примеры базового статистического анализа веса пациентов с подтвержденным диагнозом anorexia, т.е. вес пациентов, участвовавших в эксперименте, представляет собой случайную величину Х. В главе 1 было дано понятие о Гауссовом (нормальном) типе распределения данных. Предположение о том, что вес пациентов распределен по закону, близкому к нормальному (близко к рисунку 1), будет являться статистической гипотезой.
Гипотезы различают по виду предположений, содержащихся в них:
· Статистическая гипотеза, однозначно определяющая распределение P, то есть H: {P = P0}, где P0 – какой-то конкретный закон (например, вес пациентов во всех группах подчинен одному нормальному закону распределения), называется простой. H – гипотеза, принято различать нулевую гипотезу H0 (вес пациентов с подтвержденным диагнозом «анорексия» распределен нормальным образом) и альтернативную гипотезу H1 (вес пациентов с подтвержденным диагнозом «анорексия» распределен отличным от нормального закона распределения).
· Статистическая гипотеза, утверждающая принадлежность распределения P к некоторому семейству распределений, то есть вида H: {P ∈ 𝒫0}, где 𝒫 – семейство распределений, называется сложной55.
На практике обычно требуется проверить какую-то конкретную и, как правило, простую гипотезу H0. Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза H1, называемая конкурирующей, или альтернативной (вес пациента принадлежит нормальному закону распределения – нулевая гипотеза, вес пациента не принадлежит нормальному закону распределения – альтернативная гипотеза). В таблице 6 представлены формулировки трех простых нулевых и альтернативных гипотез, которые будут встречаться в тексте пособия при решении трех основных задач:
1. Задача принадлежности данных к нормальному закону распределения.
2. Задача сравнения данных, выделенных по какому-либо признаку в различные группы.
3. Задача выявления статистической зависимости между переменными.
Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами (посредством различных критериев), поэтому гипотезу называют статистической. Для проверки используют критерии, позволяющие принять ее или опровергнуть выдвинутую гипотезу:
· Формулировка основной гипотезы H0 и конкурирующей гипотезы H1 (для примера см. таблицу 5).
· Задание уровня значимости α56, на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.
· Расчет статистики j критерия такой, что57:
– ее величина зависит от исходной выборки X = (X1…Xn): φ = φ (X1…Xn);
– по ее значению можно делать выводы об истинности гипотезы H0;
– статистика φ, как функция случайной величины X, также является случайной величиной и подчиняется определенному закону распределения.
· Построение критической области. Из области значений φ выделяется подмножество C таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство P (φ ∈ C) = α. Это множество C и называется критической областью, α – ошибка первого рода.
· Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику φ и по попаданию (или непопаданию) в критическую область C выносится решение об отвержении (или принятии) выдвинутой гипотезы H0.
В качестве примера рассмотрим нулевую гипотезу о принадлежности распределения данных нормальному закону. На рисунке 12 представлена гистограмма распределения случайной величины – вес пациента с подтвержденным диагнозом «анорексия» (вес пациента является исходной выборкой X, а предполагаемый закон распределения – φ).
Рисунок 12 – Распределение веса пациентов с подтвержденным диагнозом «анорексия». Вертикальная зеленая линия соответствует 95% распределения случайной величины. Красным цветом закрашена критическая область α = 5%
Соответственно, если P (φ ∈ C)> 0,05, то расхождения считаются статистически незначимыми, а если P (φ ∈ C) ≤ 0,05, то расхождения статистически значимы, и необходимо отвергнуть нулевую гипотезу и принять альтернативную.
В большинстве случаев статистические критерии основаны на случайной выборке (X1, X2, …, Xn) фиксированного объема n ≥ 1 для распределения P. В последовательном анализе выборка формируется в ходе самого эксперимента, и потому ее размер является случайной величиной58.
54
Ивановский Р. И. Теория вероятностей и математическая статистика. Основы, прикладные аспекты с примерами и задачами в среде Mathcad: учеб. пос. СПб.: БХВ-Петербург, 2008. 528 с.
55
В рамках данного учебного пособия не рассматриваются варианты возникновения сложных статистических гипотез, материал приведен для справок.
56
Более подробно уровень статистической значимости, ошибки первого и второго рода рассмотрены в главе 5 учебного пособия.
57
Данный материал приведен как справочный и редко применяется на практике, только в том случае, когда вычисления по критерию проводятся посредством самостоятельно реализованного программного кода.
58
См.: https://ru.wikipedia.org/wiki/Проверка_статистических_гипотез.