Читать книгу Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - Никита Сергеев - Страница 12
ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ
Выборка и генеральная совокупность
ОглавлениеРеальность обычно представлена невероятно большим количеством случаев / наблюдений / объектов. Людей, жителей, клиентов, компаний, растений или животных и т. д. И вся их популяция представляет собой генеральную совокупность.
Например, если объектом нашего интереса (за кем мы желаем понаблюдать и изучить) являются жители конкретного города, то все они и есть наша генеральная совокупность. Но если объектом интереса были бы, к примеру, только люди трудоспособного возраста (или имеющие право голоса на выборах) в этом городе, то наша генеральная совокупность уменьшилась бы.
При решении отдельных задач вполне легко можно исследовать всю генеральную совокупность.
Например, у Вас есть текущая база подписчиков он-лайн журнала – и необходимо предсказать кто из них с высокой долей вероятности не продлит подписку со следующего года.
Для этого у Вас, по сути, есть доступ к базе данных по всей генеральной совокупности – и Вы можете сделать аналитику, используя данные всей базы. Посмотреть, люди с каким профилем демографии, поведения, предпочитаемых рубрик чтения и т. д. не продлевали подписку в прошлом и, наложив обнаруженные закономерности на существующую базу, получить условно доверительный прогноз кто не продлит ее сейчас.
Также с генеральной совокупностью могут иметь дело специалисты кадровых служб, проводящие анализ сотрудников предприятия.
Другое дело, когда Вы решите изучить всех потенциальных клиентов, рынок кандидатов на вакансии или избирателей. Вот тут Вы столкнетесь с тем, что всех их изучить невозможно и дорого. Поэтому Вы будете исследовать только некоторых, а полученные результаты распространять на всю генеральную совокупность.
Вот те некоторые выбранные из генеральной совокупности объекты / образцы / люди / события и будут называться выборкой.
Но с выборкой не все так просто. Основная сложность в формировании выборки – это понимание того, какие именно объекты / образцы в нее включить так, чтобы иметь полную картину. Ведь она должна быть репрезентативной – т.е., полученные по ней результаты должны с высокой долей точности отражать генеральную совокупность.
Иллюстративно генеральная совокупность, выборка и вопрос ее репрезентативности изображены на рис. 10.
Рис. 10. Генеральная совокупность, выборка и вопрос ее репрезентативности
Неужели это настолько важно – какая будет выборка? Приведу такой пример (надеюсь, не обижу чувства верующих). Например, Вы выберете всех, кто участвовал в военных действиях. Эти люди выжили – и Вы обнаружите статистически значимую зависимость с молитвой перед боем. Вы будете впечатлены – неужели молитва реально помогает выжить? Можно ли заявить об этом?
Нет, нельзя. Во-первых, возможно Вы просто путаете причину и следствие (статистические взаимосвязи не означают причинно-следственные связи, о которой мы поговорим позже) – просто во время боевых и критических для жизни моментов люди начинают чаще молиться и надеяться на высшие силы. Поэтому правильная интерпретация – это опять же вопрос модели (элементов и их взаимосвязей) объекта / явления / процесса, который Вы исследуете.
А во-вторых, есть главная проблема в Вашем исследовании – Вы не знаете, сколько также молились, но погибли. Потому что не можете их опросить – они мертвы. Т.е., Вы отобрали нерепрезентативную выборку: она не представляет собой генеральную совокупность.
Для того чтобы выборка отражала генеральную совокупность, чаще всего используют три основных подхода:
1. Случайный: когда объекты для изучения отбираются из генеральной совокупности случайным образом.
2. Стратифицированный: когда генеральную совокупность разбивают на группы (страты) по важным для модели признакам (например, пол, возраст, отрасли, поведение, использование продукта с определенной частотой, частота посещения церкви и т.д.). Объём (%) каждой группы задает то количество объектов / наблюдений, которые надо отобрать из каждой группы. Получаются квоты на отбор тех или иных объектов.
3. Серийный: когда изымают партию товара, выбирают людей, проживающих в многоквартирном доме на конкретной улице, или берут целиком отдельные отделы в компании и т. д.
Соответсвенно, генеральная совокупность и выборка связаны напрямую: чтобы отобрать репрезентативную выборку, главное иметь правильное представление о всей генеральной совокупности.
А как рассчитать, сколько же объектов / случаев / наблюдений из генеральной совокупности необходимо включить в выборку?
Для этого есть специальная формула расчета (спокойствие: книга, как и обещано, без формул), которая для расчета размера выборки использует «размер генеральной совокупности», «допустимую вероятность» и «доверительный интервал»:
· Размер генеральной совокупности – это количество всех объектов / наблюдений / случаев в генеральной совокупности.
· Доверительная вероятность – это считайте показателем точности / достоверности (о сути вероятности как таковой мы поговорим чуть позже). В практике обычно принимается 95%. Можно брать, конечно, значение выше или ниже – например, от 85% до 99,9%. Но тогда число объектов /случаев / наблюдений в выборке будет уменьшаться или увеличиваться соответственно.
· Доверительный интервал – это допускаемый Вами диапазон реальных значений при применении полученных на выборке результатов к генеральной совокупности. Задается в % и говорит о том, насколько ± % (в каком «коридоре») может отличаться истинное значение в генеральной совокупности от полученного в выборке. Например, если товаром по какому-то параметру в выборке клиентов довольны только половина (50%), то при доверительном интервале ±5% с вероятностью 95% истинное значение будет лежать в диапазоне от 47,5% до 52,5% (это ±5% от полученных в выборке 50% довольных).
Для сравнения: например, мы хотим узнать мнение 100.000 клиентов (генеральная совокупность).
Если нас устроит 95% вероятность с ±5% доверительным интервалом – то достаточно опросить 383 клиента.
Если Вас устроит ±10% – то хватит мнений всего 96 клиентов.
Ну а если нам «кровь из носа» необходима почти 100% вероятность (например, 99,7%) и чтоб почти без интервала (скажем, ±0,1%) – то готовьтесь исследовать почти всех клиентов, а именно 95.745.
Стандартно для социально-экономической реальности достаточно надежным считается использовать вероятность 95% и доверительный интервал ±5%.
По большому счету, чем выше Вы укажете вероятность и меньший доверительный интервал – тем больше объектов из генеральной совокупности должно попасть в выборку.
Сколько объектов брать в выборку – решать Вам исходя из допускаемых Вами погрешностей (все равно 100% достичь не получится) и экономичности (сколько затрат готовы понести на извлечение данных из выборки).
Сама формула расчета размера / объема выборки по большому счету Вам не нужна, так как расчет выборки автоматизирован как в спецпрограммах, так и в ряде онлайн калькуляторов.
Онлайн калькуляторы можно найти через любой поисковик в интернет (задайте запрос «онлайн калькулятор выборки»).
В калькулятор останется внести размер генсовокупности, а также устраивающую Вас вероятность и доверительный интервал – и калькулятор рассчитает сколько образцов (объектов / наблюдений / случаев) Вам необходимо исследовать в генеральной совокупности.
А ЕСЛИ ВЫ РАБОТАЛИ СО ВСЕЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТЬЮ И ОТ НЕЕ ПОЛУЧИЛИ ТОЛЬКО НЕКИЙ % ОТВЕТОВ?
Такое часто бывает, к примеру, когда Вы опрашиваете всех сотрудников предприятия. Вы раздали анкеты всем, а получили только некое количество ответов.
Тогда задача сводится к обратному: зная размер генсовокупности и выборки – рассчитать доверительный интервал, чтобы понимать, насколько полученные в выборке данные ± могут отличаться в генеральной совокупности.
Имея размер генеральной совокупности и количество заполненных анкет (выборка) можно рассчитать доверительный интервал (те наши ±%) для того или иного % ответов определенной категории.
Например, если в компании 5.000 сотрудников, а сдали анкеты только 3.250, то при доверительной вероятности 95% доверительный интервал будет ±1,02%. Считается это также в онлайн калькуляторах. Пример, как выглядят такие онлайн калькуляторы в сети Интернет на рис.10.1:
Рис.10.1. Пример онлайн калькулятора расчета доверительного интервала
Но в расчете доверительного интервала есть один нюанс по поводу поля «Процент ответов».
Внимательно читаем: рассчитанный доверительный интервал будет справедливым для альтернатив ответов сотрудников, которые набрали 50%. Для альтернатив, которые набрали другие % – доверительный интервал будет другим.
Например, Вы задали сотрудникам такой компании вопрос «Довольны ли Вы стилем менеджмента в компании?» с тремя вариантами ответа и такими % ответов персонала:
· Доволен – 50%
· Насколько доволен, настолько недоволен – 15%
· Недоволен – 35%
В данном случае, доверительный интервал (или ошибка выборки) будет ±1,02% будет справедлива только для «довольных» – т.е. доля довольных будет в диапазоне 50±1,02% (от 48,98 до 51,02).
Но для средней альтернативы доверительный интервал (или ошибка выборки) будет ±0,73%.
А для «недовольных» ±0,97%.
Т.е, подставляя в поле «Процент ответов» разные значения альтернатив в зависимости от % отметивших их сотрудников, мы будем получать разные значения доверительного интервала для альтернатив.
На практике, если в целом ошибка выборки (значения доверительно интервала) Вас устраивает в целом для «Процент ответов» 50, то далее просто смотрят полученные % ответов.