Читать книгу Статистика и котики - Владимир Савельев - Страница 5
Глава 2. Картинки с котиками или Средства визуализации данных
ОглавлениеВ предыдущей главе мы говорили про показатели, которые помогают определить, какой размер является для котиков типичным и насколько он бывает разнообразным. Но когда нам требуется получить более полные и зрительно осязаемые представления о котиках, мы можем прибегнуть к так называемым средствам визуализации данных.
Первая группа средств показывает, сколько котиков обладает тем или иным размером. Для их использования необходимо предварительно построить так называемые таблицы частот. В этих таблицах есть два столбика: в первом указывается размер (или любое другое котиковое свойство), а во втором – количество котиков при данном размере.
Это количество, кстати, и называется частотой. Эти частоты бывают абсолютными (в котиках) и относительными (в процентах).
С таблицами частот можно делать много интересных вещей. Например, построить столбиковую диаграмму. Для этого мы откладываем две перпендикулярных линии: горизонтальная будет обозначать размер, а вертикальная – частоту. А затем – рисуем столбики, высота которых будет соответствовать количеству котиков того или иного размера.
А еще мы можем вместо столбиков нарисовать точки и соединить их линиями. Результат называется полигоном распределения. Он довольно удобен, если котиковых размеров действительно много.
Наконец, мы можем построить круговую диаграмму. Величина каждого сектора такой диаграммы будет соответствовать проценту котиков определенного размера.
Следующая группа средств визуализации позволяет отобразить сразу два котиковых свойства. Например, размер и мохнатость. Как и в случае со столбиковыми диаграммами, первым шагом рисуются оси. Только теперь каждая из осей отображает отдельное свойство. А после этого каждый котик занимает на этом графике свое место в зависимости от степени выраженности этих свойств. Так, большие и мохнатые котики занимают место ближе к правому верхнему углу, а маленькие и лысые – в левом нижнем.
Поскольку обычно котики на данной диаграмме обозначаются точками, то она называется точечной (или диаграммой рассеяния). Более продвинутый вариант – пузырьковая диаграмма – позволяет отобразить сразу три котиковых свойства одновременно (размер, мохнатость и вес). Это достигается за счет того, что сами точки на ней имеют разную величину, которая и обозначает третье свойство.
Последняя крупная группа средств визуализации позволяет графически изобразить меры центральной тенденции и меры изменчивости. В простейшем виде это точка на графике, обозначающая, где находится средний котик, и линии, длина которых указывает на величину стандартного отклонения.
Более известным средством является так называемый боксплот