Читать книгу Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие - - Страница 17

3. ПОНЯТИЕ О СТАТИСТИЧЕСКОЙ ГИПОТЕЗЕ

Статистическая гипотеза – выдвинутое предположение о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть применением статистических методов к данным, содержащимся в исследуемой выборке54.

Пусть в эксперименте доступна наблюдению случайная величина X, распределение которой P полностью или частично неизвестно. Тогда любое утверждение относительно P называется статистической гипотезой. Выше были представлены примеры базового статистического анализа веса пациентов с подтвержденным диагнозом anorexia, т.е. вес пациентов, участвовавших в эксперименте, представляет собой случайную величину Х. В главе 1 было дано понятие о Гауссовом (нормальном) типе распределения данных. Предположение о том, что вес пациентов распределен по закону, близкому к нормальному (близко к рисунку 1), будет являться статистической гипотезой.

Гипотезы различают по виду предположений, содержащихся в них:

· Статистическая гипотеза, однозначно определяющая распределение P, то есть H: {P = P₀}, где P₀ – какой-то конкретный закон (например, вес пациентов во всех группах подчинен одному нормальному закону распределения), называется простой. H – гипотеза, принято различать нулевую гипотезу H₀ (вес пациентов с подтвержденным диагнозом «анорексия» распределен нормальным образом) и альтернативную гипотезу H₁(вес пациентов с подтвержденным диагнозом «анорексия» распределен отличным от нормального закона распределения).

· Статистическая гипотеза, утверждающая принадлежность распределения P к некоторому семейству распределений, то есть вида H: {P ∈ 𝒫₀}, где 𝒫 – семейство распределений, называется сложной55.

На практике обычно требуется проверить какую-то конкретную и, как правило, простую гипотезу H₀. Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза H₁, называемая конкурирующей, или альтернативной (вес пациента принадлежит нормальному закону распределения – нулевая гипотеза, вес пациента не принадлежит нормальному закону распределения – альтернативная гипотеза). В таблице 6 представлены формулировки трех простых нулевых и альтернативных гипотез, которые будут встречаться в тексте пособия при решении трех основных задач:

1. Задача принадлежности данных к нормальному закону распределения.

2. Задача сравнения данных, выделенных по какому-либо признаку в различные группы.

3. Задача выявления статистической зависимости между переменными.

Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами (посредством различных критериев), поэтому гипотезу называют статистической. Для проверки используют критерии, позволяющие принять ее или опровергнуть выдвинутую гипотезу:

· Формулировка основной гипотезы H₀ и конкурирующей гипотезы H₁(для примера см. таблицу 5).

· Задание уровня значимости α56, на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.

· Расчет статистики j критерия такой, что57:

– ее величина зависит от исходной выборки X = (X₁…X_n): φ = φ (X₁…X_n);

– по ее значению можно делать выводы об истинности гипотезы H₀;

– статистика φ, как функция случайной величины X, также является случайной величиной и подчиняется определенному закону распределения.

· Построение критической области. Из области значений φ выделяется подмножество C таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство P (φ ∈ C) = α. Это множество C и называется критической областью, α – ошибка первого рода.

· Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику φ и по попаданию (или непопаданию) в критическую область C выносится решение об отвержении (или принятии) выдвинутой гипотезы H₀.

В качестве примера рассмотрим нулевую гипотезу о принадлежности распределения данных нормальному закону. На рисунке 12 представлена гистограмма распределения случайной величины – вес пациента с подтвержденным диагнозом «анорексия» (вес пациента является исходной выборкой X, а предполагаемый закон распределения – φ).

Рисунок 12 – Распределение веса пациентов с подтвержденным диагнозом «анорексия». Вертикальная зеленая линия соответствует 95% распределения случайной величины. Красным цветом закрашена критическая область α = 5%

Соответственно, если P (φ ∈ C)> 0,05, то расхождения считаются статистически незначимыми, а если P (φ ∈ C) ≤ 0,05, то расхождения статистически значимы, и необходимо отвергнуть нулевую гипотезу и принять альтернативную.

В большинстве случаев статистические критерии основаны на случайной выборке (X₁, X₂, …, X_n) фиксированного объема n ≥ 1 для распределения P. В последовательном анализе выборка формируется в ходе самого эксперимента, и потому ее размер является случайной величиной58.

54

Ивановский Р. И. Теория вероятностей и математическая статистика. Основы, прикладные аспекты с примерами и задачами в среде Mathcad: учеб. пос. СПб.: БХВ-Петербург, 2008. 528 с.

55

В рамках данного учебного пособия не рассматриваются варианты возникновения сложных статистических гипотез, материал приведен для справок.

56

Более подробно уровень статистической значимости, ошибки первого и второго рода рассмотрены в главе 5 учебного пособия.

57

Данный материал приведен как справочный и редко применяется на практике, только в том случае, когда вычисления по критерию проводятся посредством самостоятельно реализованного программного кода.

58

См.: https://ru.wikipedia.org/wiki/Проверка_статистических_гипотез.

Проведение статистического анализа на языке программирования R в медико-биологических исследованиях. Учебное пособие

Подняться наверх