Читать книгу Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - Никита Сергеев - Страница 17
ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ
Нормальное распределение
ОглавлениеКолоколообразную кривую знают и наслышаны все (она же колокол Гаусса, гауссовское распределение – рис. 16).
Рис. 16. То самое ОНО – нормальное распределение
Я о ней уже упоминал вначале, когда говорил об особенностях социально-экономической реальности в сравнении с естественно-технической.
И почему-то многие уверены, что этой кривой подчиняется все. На самом деле в реальности кривая нормального распределения чаще всего проявляется в физических параметрах, ограниченных физическими законами – гравитация, размеры, вес организмов определенного вида и т. д.
В социально-экономической реальности скорее наоборот – Вы будете встречать отсутствие нормального распределения. Оно буде скорее скошено вправо или влево, или очень сжато по оси ОХ или ОY (рис. 17).
Рис. 17. Примеры реальных распределений в социально-экономической реальности
90% жителей страны владеют 2% капитала. 2 певца забирают 95% популярности. 99% тиража всех книг приходится на 1% авторов и т. д.
В любом случае на практике реальное распределение отклоняется от этой кривой. Да и выборки данных, строго соответствующие нормальному распределению, на практике, как правило, не встречаются.
Но тем не менее, в статистике перед исследованием важно понимать соответствует ли распределение наших данных по каждой переменной нормальному распределению.
Для переменных, которые нормально распределены – используются одни параметры и критерии для сравнения (и среднее значение, дисперсия, стандартное отклонение – в этом случае информативные показатели).
Для тех переменных, которые не соответствуют нормальному распределению – другие критерии (тут скорее более информативными будут ранги, мода, медиана и т.д.).
Понять «на глаз» нормально ли распределены данные на самом деле может быть достаточно сложно. Бывает внешне похожее на нормальное распределение значимо от него отличается. А бывает наоборот – визуально не выглядящее нормальным распределение не имеет значимых отличий от нормального.
Поэтому для определения «нормальности» распределения разработаны специальные статистические тесты. Мы на этом остановимся позже в практических разделах книги.