Читать книгу Google Analytics для googлят: Практическое руководство по веб-аналитике - Яков Осипенков - Страница 8

Глава 2. Знакомство с Google Analytics
Выборка данных в Google Analytics

Оглавление

При достижении лимита в 500 тыс. сеансов на уровне ресурса для выбранного диапазона дат Google Analytics начинает работать с данными несколько по-другому. Он их сэмплирует.

Сэмплирование (англ. Sampling) – метод выбора подмножества наблюдаемых величин из данного множества, с целью выделения неких свойств исходного множества. Иными словами, Google берет некоторую выборку данных, например, 10%, умножает ее на 10 и говорит нам, что так вели бы себя все 100%.

При работе с большими объемами данных все отчеты строятся быстро, нет никаких проблем с их загрузкой и отображением. А теперь представьте, что под такую выборку попала статистика по вашим рекламным кампаниям. В отчете на основе сэмплированных данных может быть показан доход 100 000 руб., а на самом деле за этот период он составил 150 000 руб. Или система взяла выборку на основании социально-демографических характеристик, что в дальнейшем привело к неправильному определению портрета целевой аудитории нашего сайта.

Желтый значок в Google Analytics рядом с названием отчета говорит нам о том, что к нему было применено сэмплирование:


Рис. 78. Неполная выборка

Зеленый значок свидетельствует о том, что он построен на 100% выборке данных.


Рис. 79. Выборка данных на основе анализа 100% сеансов

Google и Яндекс применяют сэмплирование для снижения нагрузки на свои сервера. Отчет строится гораздо быстрее, но может вводить веб-аналитика в заблуждение.

Преодолеть порог в 500 тыс. сеансов для посадочной страницы или небольшого интернет-магазина конечно сложно, но не невозможно. Чтобы на основе сэмплированных данных можно было делать выводы о всей совокупности значений, в выборке не должно быть никаких критических изменений, скачков и провалов.


Рис. 80. Скачок в статистике

Есть несколько способов борьбы с сэмплированием данных в Google Analytics:

• уменьшить временной диапазон;


Рис. 81. Сокращение временного интервала

Уменьшая диапазон дат, вы уменьшаете и количество данных, которое придется обработать системе. Можно разбить временной интервал на небольшие интервалы (например, по месяцам), а потом вручную собрать их в том же Excel.

• увеличить точность выборки;

Точность выборки задается в настройках GA при формировании отчета. Доступно два варианта:

1. Быстрая обработка – небольшая выборка для оперативного получения результатов, большая погрешность;

2. Более точные результаты – используется выборка максимального размера, обеспечивающая высокую репрезентативность данных.


Рис. 82. «Быстрая обработка» или «Более точные результаты»

Регулировка размера выборки будет использоваться для всех отчетов, пока вы не выйдете из Google Analytics.

• использовать Google Analytics 360 Suite;

Данный инструмент был разработан специально под корпоративных клиентов с целью предоставления самых актуальных данных в отчетах. Раньше он назывался Google Analytics Premium.

Входящий в него Google Analytics 360 (платная версия Google Analytics) может обрабатывать до 100 млн сеансов и 1 миллиарда обращений в месяц на уровне представления для выбранного диапазона дат.

Стоимость использования – от 4000$/мес.

• использовать Google Analytics Query Explorer;

Инструмент Query Explorer позволяет выгружать большие объемы данных (10 000 строк за один запрос), создавать отчеты, содержащие более двух параметров (максимум 7), а также сохранять эти отчеты в формате TSV.

Например, можно выгрузить данные из нескольких профилей сразу. После выгрузки их можно объединить с данными из CRM-системы.


Рис. 83. Google Analytics Query Explorer

Инструмент работает с Core Reporting API.

• использовать Spreadsheet Add-on;

Дополнение (Add-on) для Google Analytics, которое позволяет выгружать данные в электронные таблицы Google через API с ограничением до 10000 строк.


Рис. 84. Spreadsheet Add-on

• использовать язык программирования R.

Язык программирования R применяется для статистической обработки данных и работы с графикой. Благодаря программному обеспечению Rtools и RStudio, самому языку и готовым скриптам процесс выгрузки данных из Google Analytics через API значительно упрощается.

Инструмент является бесплатным.

Google Analytics для googлят: Практическое руководство по веб-аналитике

Подняться наверх