Читать книгу Наука 2.0. Как жить эту жизнь - Александр Гутовский - Страница 7

Как дорасти до цели?
Наблюдения

Оглавление

Мы не описываем мир, который видим. Мы видим лишь то, что можем описать.

Рене Декарт

Вселенная создавалась, не опираясь на необходимость восприниматься нашими чувствами. Наоборот, наше тело эволюционировало, чтобы воспринимать необходимые для выживания, а значит, обыденные вещи. Мы видим и слышим лишь очень узкий промежуток всего спектра электромагнитных излучений и звука. Мы не замечаем движения слишком медленных объектов, вроде роста деревьев, и не успеваем уловить слишком быстрых, вроде полета пули. Мы не можем увидеть слишком маленьких вещей, как молекулы или вирусы, или осознать слишком большие, вроде галактик. Мы можем написать довольно большое число, нарисовать довольно большую галактику, но нас все равно шокирует, что даже за всю жизнь до этого числа не досчитать, а галактику не пересечь, даже на скорости света.

Поэтому мы и ошибаемся так часто – при выходе за грани известного приходится выходить и за грани воображения. Никто не мог себе вообразить, что свет может быть и частицей, и волной и что наличие наблюдателя будет влиять на это (корпускулярно-волновой дуализм). Никто не мог вообразить существование клеток, вирусов, молекул, атомов, звезд, галактик, черных дыр, квазаров и блазаров. Всему этому предшествовали наблюдения.

И это прекрасно, иначе мы бы сразу приходили к правильному ответу и жизнь была бы скучна, не существовало бы проблем. А так, пока человечество развивается, проблемы будут существовать, будет существовать край круга знаний, бездна, рядом с которой мы постоянно будем оступаться, и не будет утопии или идеала, пока мы не дойдем до конца, если он есть. А там поди и смысл найдется.

По моему скромному мнению, мы не можем говорить о смысле, пока не поймем, что происходит вокруг, как оно началось и чем закончится, где мы находимся и какое место во всем этом занимаем. И до того момента поиск ответов на эти вопросы – самый благородный из всех возможных смыслов.


Наблюдения подвержены трем типам ошибок: репрезентативности, регистрации и анализа. Если эти ошибки преднамеренные, то они называются фальсификациями.

Особенно хорошо фальсификации видно на демократических выборах. Когда на каких-то избирательных участках процент явки в разы выше, чем на других; когда этот процент часто принимает какие-то «красивые», ровные значения; когда на участках с высокой явкой также наблюдается высокий перевес в соотношении голосов за правящую партию и оппозиции, – все это говорит о вбросах. Статистика позволяет видеть, но она только намекает и не может утверждать.

Чтобы избежать ошибок репрезентативности, необходимо, чтобы для выборки выполнялись требования:


1. Представительности. Во Вторую мировую войну встала задача установки дополнительной брони бомбардировщикам. И так как наука по умолчанию не ограничена вопросами морали, она и тут могла помочь. Те бомбардировщики, которые возвращались на базу, имели множество пробоин на фюзеляже, меньше в топливной системе и намного меньше в двигателе. Это была доступная к выборке совокупность, однако защищать надо было как раз те бомбардировщики, которые не вернулись. Именно их надо было исследовать, именно они представляли так называемую генеральную совокупность. Таким образом, укреплять надо было те места, которые у вернувшихся были целее всего, потому что как раз отсутствие повреждений в этих зонах позволило им вернуться. Такой тип когнитивного искажения называется ошибкой выжившего, для него существует множество других примеров, которые можно охарактеризовать как ориентацию на истории успеха, когда неуспешные истории просто недоступны для выборки, о них нет данных. И если у тебя что-то получилось, то ты можешь просто не знать, что могло пойти не так у других. Это не значит, что всем должно быть просто и все ленивые.

Но существует и обратная ситуация, когда нам может быть доступно слишком много. Например, если мы исследуем изменения средней продолжительности жизни в контексте медицины или преступности, то нам следует рассматривать тенденцию не всей совокупности, а только смерти по причине болезней и, соответственно, убийства. Иначе значительное улучшение медицины, но ухудшение криминальной ситуации могут в общем дать прирост и неосмотрительный товарищ майор отрапортует о хорошо проделанной работе.

Итого надо следить за тем, какие объекты доступны к выборке, а какие из них должны быть исследованы (представляют генеральную совокупность) и доступны ли они вообще.


2. Случайности. В качестве примера псевдослучайной выборки можно привести историю о том, как в 1936 году журнал The Literary Digest для проведения опроса касательно предстоящих выборов президента разослал 10 миллионов бюллетеней своим подписчикам, а также людям, выбранным из телефонных книг и регистрационных списков автомобилей. Из всех бюллетеней вернулось приблизительно 2,5 миллиона (25%), и голоса в них были распределены следующим образом:

• 57% за республиканца Альфа Лэндона;

• 40% за демократа Франклина Рузвельта.

Этот журнал успешно прогнозировал результаты выборов до этого, но в этом году они ошиблись: победил Рузвельт, набрав более 60% голосов.

Большинство подписчиков этого журнала были республиканцами, и, чтобы увеличить репрезентативность выборки, редакторы добавили в нее случайных людей из телефонных книг и регистров автомобилей. Журналу фактически была доступна вся генеральная совокупность, однако выбранный ими способ отбора оказался неслучайным: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и высшего класса (то есть большинство республиканцев, а не демократов).


3. Достаточности по объему. Сколько будет достаточно – сложный вопрос. Математически точно сказать, было ли достаточно, можно только после сбора статистики, т. к. только с данными на руках мы увидим, какая в них степень разброса и какое распределение. Для этого и существуют методы построения доверительного интервала и проверки статистической гипотезы.

Но журналисты в интернете редко нам предоставляют данные об исследованиях очередных британских ученых, так что мы редко можем что-либо посчитать и что-то утверждать. Можем только всегда отмахнуться, что «этого было недостаточно», если результаты исследований нам не нравятся.

А для себя можно пользоваться практически шуточным законом Парето, который утверждает, что 80% результата вызваны 20% усилий, остальные 20% результата – 80% усилий. И на практике эта шутка выполняется с завидной частотой. Например, 20% населения Земли владеют 80% ресурсов, часто 20% клиентов приносят 80% дохода, другие 20% приносят 80% жалоб, а 20% совокупности дадут 80% данных. То есть в опросах достаточно спросить каждого пятого. Если опрос не среди пяти человек, конечно. Если всего в совокупности пять человек, то можно уже не полениться и спросить всех.


Второй тип ошибок – ошибки регистрации – связан с установлением ложных фактов, случайным, систематическим или преднамеренным. Можно случайно дописать нолик в строчку, можно перепутать килограммы с граммами и везде ошибиться на тысячу, а можно ошибиться на пару миллионов, но лишь в ячейке собственной зарплаты, по чистой случайности, конечно. Чтобы избежать таких ошибок, необходимо проводить чистку от аномальных данных и собирать данные не в одиночку. В научных кругах результаты нескольких таких независимых сборщиков объединяются в метаанализ. И только такие метаанализы считаются мало-мальски добросовестными и надежными, свободными от ошибок регистрации и фальсификаций.

В качестве яркой истории фатальности ошибок регистрации приведу историю, как в 1905 году доктор Дункан Макдугалл провел серию экспериментов в попытке измерить массу души. Используя самодельные кровати-весы, он мерил вес умирающих от туберкулеза больных, в крайней стадии они практически неподвижны. Первый испытуемый в момент смерти потерял 21 граммов, что и попало на обложку New York Times вскоре, однако сейчас уже мало кто вспоминает, что результаты второго испытуемого вообще не были записаны, третий потерял 41 грамм, на четвертом ассистенты рассорились из-за аморальности исследования и результаты также считаются недействительными, пятый вообще набрал 12 граммов, потом потерял их, потом снова набрал, а шестой умер, пока производилась настройка весов. Очевидно, такой уровень технологий и организации не позволял произвести измерения необходимой точности. Эксперимент пытались повторить, но безуспешно, а многие до сих пор уверены, что это правда, и даже снимают фильмы по этому поводу, продлевая жизнь этому ложному культурному наследию.


Также, чтобы избежать ситуации, когда «чиновники едят мясо, я – капусту, а в среднем мы едим голубцы», следует провести очистку данных от аномальных чиновников. Одним из таких примеров является как раз показатель среднего дохода: он может очень сильно смещаться в сторону совсем немногочисленных элит. Но то, что показателем среднего арифметического мы будем не удовлетворены, говорит о том, что он нам не подходит, а не о том, что он плох. Нас не удовлетворяет результат, потому что на самом деле мы хотим видеть не средний доход всех, а средний доход средних, основной массы, «нормальных», или «типичных», представителей общества. Для такого случая существует среднее по Пуанкаре, которое сначала отбрасывает все аномальные, «ненормальные» данные, а потом уже считает среднее.

Скажем, у нас есть населенный пункт из 12 граждан, их доходы представлены в виде массива [0, 7 700, 8 400, 9 200, 9 850, 10 170, 10 350, 11 360, 11 800, 12 200, 12 400, 100 000]. Таким образом, у нас один безработный, 10 простых рабочих и один гражданин, который зарабатывает 100 тысяч условных единиц в месяц. В среднем все они будут зарабатывать 16 952,5 условных единицы в месяц. Де-факто только один гражданин из 12 будет зарабатывать сумму больше средней. Однако откинув крайние значения во имя справедливости и доказав то, что мы можем это сделать по тесту Титьена – Мура, мы получим, что среднее будет равно уже 10 343 условным единицам, что уже больше похоже на правду при составлении потребительской корзины. Если в соответствующих исследованиях такая чистка не была произведена, это также можно считать фальсификацией, но ни в коем случае не проблемой статистики в целом. Это универсальный инструмент, мы просто можем неправильно им пользоваться.

Хорошо, данные мы собрали и, дай бог, почти нигде не ошиблись, но статистика на этом только начинается. Она позволяет не только правильно собирать, но и анализировать эти данные. Всего существует три основных типа статистического анализа:


1. Поиск зависимостей, иными словами, корреляционный (связь между двумя или более) и регрессионный (влияние нескольких на одного) анализ. Это основные методы поиска зависимостей между явлениями, однако следует помнить, что зависимость не означает причинно-следственную связь.

Так, на сайте Spurious Correlations можно обнаружить множество примеров совпадений самого странного рода. Например, связь между объемом дотаций США на науку, космос и технологии и количеством суицидов через повешение и удушение (степень совпадения – 99,79%).


Между количеством людей, утонувших от падения с рыбацкой лодки, и количеством свадеб в Кентукки (95,24%).


Или между количеством утонувших в бассейне и количеством фильмов, в которых снялся Николас Кейдж (66,6%).


Кому-то эти зависимости могут показаться интересными, кто-то может даже найти объяснение некоторым из них, однако даже это не может свидетельствовать о причинно-следственной связи. Статистика не может утверждать, что Николас Кейдж топит людей в бассейнах после съемок, статистика может только указывать, намекать на это, а проверено это будет уже в ходе эксперимента – скорее всего, следственного. Где путем специального приглашения Николаса на съемки будет проведен мониторинг всех бассейнов в округе.


2. Классификация, иными словами, кластерный анализ. Попытка разделения массива на группы.

Ложные разделения при их обнаружении мы называем дискриминацией, самые известные случаи – дискриминация по половому и расовому признаку. Долгое время считалось, что раса и пол влияют на интеллектуальные способности человека, и эксперименты это подтверждали, однако толком объяснить, почему так происходит, не удавалось. Наоборот, выяснилось, что зависимость прослеживается ввиду других факторов. И если мы учтем влияние стереотипов, уровень образования, гормоны, здоровье, питание и воспитание, влияние которых объяснить легко, то увидим, что ущемленные группы покажут даже лучшие результаты, так как подвергаются большему давлению и, соответственно, прикладывают больше усилий.

Даже нейронные сети могут допускать ошибки такого рода. Так, нейросеть для оценки резюме, созданная компанией Amazon, из-за того что была обучена на имеющихся данных, на текущем положении вещей в компании, отбраковывала соискателей женского пола на позицию программистов. Женщин-программистов практически не было в компании на тот момент. «Значит, они плохо программируют», – подумала нейронная сеть. Из-за чего компанией было принято решение закрыть данный проект.

И даже «справедливость» в этих вопросах не будет означать равенства. Так, в Австралии в 2017 году вместо гендерных квот ввели слепые резюме, в которых не указывался пол соискателя, что привело только к снижению предпочтительности женщин в работе.

И, чтобы уравнять ситуацию, мы должны уравнивать условия среды для всех, а не вводить искусственные квоты, слепые резюме, закрывая на проблему глаза.

Кроме того, что в классификации, так же как и в корреляции, мы пытаемся увидеть причину и следствие, пытаемся классифицировать вещи по причинным (пол, раса) и следственным (интеллект) параметрам, мы также пытаемся разделить объекты просто в неуместных ситуациях. Ричард Докинз назвал этот феномен «тиранией дискретного мышления». Вот отрывок из его книги «Рассказ предка», где он говорит об этом в контексте эволюционной биологии:

«Названия – вечный камень преткновения в науке об эволюции. Ни для кого не секрет, что палеонтология противоречива и в этой отрасли науки нередко вспыхивает вражда. (Есть по крайней мере восемь книг, озаглавленных «Кости раздора». ) Чаще всего палеонтологи ссорятся из-за имен. Что это – ископаемый Homo erectus или архаичный H. sapiens? Ранний H. habilis или поздний Australopithecus?.. Одержимость названиями – пример того, что я называю тиранией дискретного мышления.

В Британии серебристая чайка и клуша четко различаются. Различия, которые трудно не заметить, касаются в основном цвета крыльев. У серебристых чаек они серебристо-серые, у клуш – темно-серые, почти черные. Сами птицы отлично различают друг друга и не скрещиваются, хотя иногда образуют смешанные колонии. Поэтому зоологи с чистой совестью дали им разные видовые названия: Larus argentatus и L. fuscus.

…Если проследить популяцию серебристой чайки на запад к Северной Америке, через Сибирь и снова до Европы, мы заметим, что по мере движения вокруг полюса серебристые чайки все меньше напоминают серебристых чаек и становятся все сильнее похожими на клуш. Западноевропейские клуши – на самом деле продолжение кольца, которое начинается с серебристых чаек. В каждой точке кольца птицы похожи на непосредственных соседей достаточно, чтобы скрещиваться с ними, – но лишь до тех пор, пока не достигнута крайняя точка, в которой кольцо замыкается. В Европе серебристая чайка и клуша не скрещиваются, хотя и связаны непрерывным кольцом скрещивания своих родственников.

Наука 2.0. Как жить эту жизнь

Подняться наверх