Читать книгу Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - Никита Сергеев - Страница 14
ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ
Шкалы для измерения переменных
ОглавлениеКаждая переменная может принимать различные значения. Значения переменных варьируются и отличаются от случая к случаю, от объекта к объекту.
Ну и Вы уже наверняка заметили, что они могут быть измерены в различных шкалах.
Например, пол – 0 и 1 или 1 и 0. Т.е, мужчина или женщина.
Доход, который выражается в рублях и может принимать большое количество разных значений, хоть до копеек.
Или частота поездок за границу, курения, использования интернета…
Разные шкалы имеют разную информативность. От того, какая шкала используется, зависят также и методы анализа, которые к ней можно применять.
Статисты понапридумывали разные типы шкал, но их в целом можно объединить в три основных типа, которые в книге приводятся в порядке возрастания информативности.
Номинальная шкала (рис. 12) – например, пол, город, страна, семейное положение, политическая партия, ФИО кандидата в президенты.
Рис. 12. Номинальная шкала
По сути, это шкала наименований и классификаций. С ней бессмысленно проводить какие-либо математические операции. Цифры в ней ничего не значат, или, как говорят ученые, не имеют эмпирического значения. Если, например, мы поставим 1 Уфе, а 2 – Самаре, это не означает, что Уфа на ступеньку ниже Самары. Мы можем даже поменять цифры между городами – это ничего не изменит.
Т.е., эта шкала всего лишь определяет принадлежность наблюдения, случая или объекта к какой-то группе и позволяет классифицировать объекты. Тут мы можем посчитать только количество объектов в группе. Например, количество или % мужчин и женщин в нашей выборке. Или количество людей из разных стран или городов. Или количество тех или иных профессий.
Отдельно при рассмотрении номинальных шкал стоит выделить дихотомии – переменные с двумя значениями. Пол, прошёл / не прошёл тест, выжил / погиб, любой вопрос с вариантами ответа только да / нет. Есть методы анализа и прогнозирования, при которых удобно использовать именно дихотомии.
Второй тип шкал – порядковая или ранговая (рис. 13).
Рис. 13. Порядковая (категориальная, ординальная, ранговая) шкала
Еще ее называют ординальная (от слова order – c англ. порядок). Например, воинское звание, или место в организационной иерархии или уровень образования. Тут закладывается некая степень проявления какого-то свойства между объектами, но непонятна ни его точность, ни расстояния между ними.
Генерал выше полковника. Работа может быть интересна, безразлична или неинтересна. Занявший I место по бегу выше того, кто занял II и III (хотя разница в их абсолютном результате могла составлять между первым и вторым 5 секунд, а с третьим – более 2 минут).
Эту шкалу, как и номинальную, используют для классификации объектов и подсчета количества или %. Но по ней можно применять и ряд методов статистического анализа и поиска закономерностей – например, попробовать найти взаимосвязь между частотой использования мата и воинским званием.
Третий тип – количественные или интервальные шкалы (рис. 14).
Рис. 14. Интервальная (количественная, относительная, метрическая) шкала
Если предыдущая порядковая шкала несла инфо о порядке данных, то количественная – это числа, реально отражающие размерности, разности, масштабы и расстояния между объектами.
Например, точное время, за которое бегуны пробежали дистанцию. Возраст лет. IQ. Уровень лояльности или мотивации сотрудника. Доход.
С этими шкалами можно осуществлять любые виды анализа. Более того, их можно легко превращать в порядковые, объединяя диапазоны значений. Например, доход можно разбить на 4 диапазона – низкий, средний, выше среднего и высокий.
Оговорюсь, что количественные (метрические) шкалы могут выглядеть по-разному: есть с отрицательными значениями, есть с абсолютным нулем (например, возраст) есть те, которые в принципе не начинаются с нуля (например, IQ). Аналитики в разговорах, статьях, литературе их могут именовать по-разному (например, интервальная, шкала масштаба или шкала отношений с абсолютным нулем…) – но, по сути, все они с точки зрения использования методов аналитического инструментария одинаковы.