Читать книгу Data Science для новичков - Руслан Назаров - Страница 8
Глава 2. Статистическое исследование
Выбросы
ОглавлениеВ учебнике для инженеров дано следующее определение выбросов:
«Выбросы – это точки данных, которые получены не из того же распределения, из которого получена основная масса данных».
То есть выброс – это такое значение, которое пришло не из того распределения, из которого пришли основные данные. В этом смысл того, чтобы определить распределение для большинства данных, а затем уже выброс. Редкие данные возможны и в границах распределения для основных данных, но вот выброс выходит вообще за границы распределения, то есть например за пределы колокола в нормальном распределении. В этом смысл того, что сначала надо найти отличающиеся от других данные, а затем проверить их на влиятельность.
Вот рекомендации по обработке выбросов из учебника для инженеров:
1. К каждому выбросу необходимо относиться серьезно. Не рекомендуется автоматически удалять выбросы. Наличие выбросов может быть не просто ошибкой в данных, выбросы могут сообщать важную информацию о данных. Поэтому надо постараться объяснить, чем вызваны выбросы в данных.
2. Если гистограмма показывает наличие выбросов, то рекомендуется следующее:
1) применить ящик с усами, который лучше гистограммы показывает наличие и количество выбросов;
2) применить Grubbs’ Test или иные тесты для обнаружения выбросов.
Рекомендуемые тесты на выбросы:
1) Grubbs’ Test – если тест на единичный выброс;
2) Tietjen-Moore Test – в случае, если в данных предполагается более одного выброса. Необходимо заранее знать точное количество выбросов.
3) Generalized Extreme Studentized Deviate (ESD) Test – также, если в данных более одного выброса. Необходимо знать только верхнюю границу ожидаемого числа выбросов. Рекомендуется, когда точное количество выбросов неизвестно.
Как правило, при обнаружении выбросов исходят из того, что данные распределены нормально. Если это не так, то можно привести данные к нормальному распределению.
Это – ящики с усами. Их придумал отец-основатель анализа данных Тьюки. В середине прямоугольников показана медиана. Левый край прямоугольника – это 25%-квартиль, правый край – 75%. Усы – это межквартильный размах. За пределами усов – выбросы.
Интересный вопрос про ящик – это почему он то сжимается, то растягивается. Почему медиана скачет от левой стороны к правой? Ведь это медиана, она должна быть посередине. Все верно, почти. Разберу это на примере.
Важное терминологическое замечание.
«Квантиль 0,5 называют медианой. Для а = 0,25, 0,5 и 0,75 соответствующие квантили называются квартилями, а = 0,2, 0,4, 0,6, 0,8 они называются квинтилями».
Что здесь произошло? Я создал второй вектор, где заменил 7, 8, 9, 10 на 51, 53, 54, 100. Количество значений не изменилось. Не изменилась и сама медиана – она осталась 5.5. Однако линия медианы «прижалась» к левой стороне ящика. Почему?