Читать книгу Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке - - Страница 5

Часть I. Как должно быть – и как на самом деле
Глава 2. Кризис воспроизводимости

Оглавление

Взовьется на дыбы желанье власти

И валится, споткнувшись, в тот же миг[55].

Уильям Шекспир “Макбет”, акт 1, сцена 7

“Опубликовано” и “достоверно” – не синонимы.

Райан Носек, Джеффри Спайс и Мэтт Мотел[56]

Несомненно, самая популярная книга по психологии за минувшее десятилетие – это “Думай медленно… решай быстро” Даниэля Канемана. Не так много существует руководств по человеческому разуму, превосходящих канемановское. Он получил Нобелевскую премию по экономике 2002 года за свои исследования человеческой (ир)рациональности и опубликовал результаты десятков искусных экспериментов, демонстрирующих ограничения нашей способности мыслить. Книга “Думай медленно… решай быстро” стала сенсацией, суммарные продажи исчислялись миллионами экземпляров, и она до сих пор недурно расходится. И на то есть причины: это живо и доступно написанный путеводитель по всем ошибкам и искажениям человеческого мышления[57]. Помимо многих других тем Канеман осветил работы по “праймингу”, как называют это явление психологи. Некоторые примеры прайминга (эффекта предшествования) имеют отношение к языку. Например, установлено, что если я показываю вам на экране компьютера набор слов по одному и прошу нажимать на клавишу всякий раз, как появляется слово “ложка”, то вы будете реагировать чуточку быстрее, если перед тем высвечивалось слово “вилка” (или какой-то еще из столовых приборов), чем когда предшествующим словом было “дерево” (или что-то еще не относящееся к принадлежностям для приема пищи). Восприятие слова “вилка” психологически “настраивает” вас быстрее реагировать на близкое по смыслу слово[58].

Канеман, однако, описал нечто более неожиданное. Он осветил результаты исследования по социальной психологии, демонстрирующие, что формирование установок, связанных с определенными понятиями, – обычно неосознанное – может ощутимо влиять на наше поведение. Один пример известен как “эффект леди Макбет”. В 2006 году в журнале Science вышла статья о том, что, когда исследователи просили участников эксперимента переписать текст об аморальных поступках, те потом с большей вероятностью хотели купить мыло, а просьба вспомнить что-то неприглядное из собственных деяний заставляла их чаще брать при выходе из лаборатории дезинфицирующую салфетку (“Проклятое пятно!”). Здесь воздействие оказывалось без словесных установок: получалось, что мозг работает куда более связно и целостно, чем мы полагали, что между понятиями и концепциями, вроде бы связанными очень условно, образуются прочные сшивки. В данном случае это казалось свидетельством некоего глубинного наложения понятий морали и чистоты. Авторы статьи утверждали, что эти результаты могут даже объяснить, почему омовение рук является частью столь многих религиозных ритуалов по всему миру[59].

Канеман также сделал обзор исследований “денежного прайминга”. В другой статье, вышедшей в Science в том же 2006 году, рассказывалось, как социальные психологи обнаружили, что, ненавязчиво напоминая людям о деньгах – скажем, сажая их за стол, где по случайности стоит компьютер с плавающими банкнотами на экранной заставке, – можно побудить их чувствовать и вести себя так, словно они более независимы, и меньше беспокоиться о других[60]. Авторы писали, что участники исследования, подвергшись денежному праймингу, предпочитали “играть в одиночку, работать в одиночку и держать бо́льшую физическую дистанцию между собой и новым окружением”[61]. И действительно, в ответ на просьбу расставить в комнате стулья для личной беседы с незнакомым человеком участники, подвергшиеся денежному праймингу, ставили стулья почти на тридцать сантиметров дальше один от другого по сравнению с участниками эксперимента, которые видели пустой экран компьютера. Нехилый эффект для простой экранной заставки, вероятно, подумали вы. И такой сценарий повторялся в большинстве значимых исследований прайминга: очень тонкие установки вызывали заметные изменения в поведении людей.

Канеман заключил, что подобные исследования прайминга “ставят под угрозу наше восприятие себя как сознательных и независимых творцов своих суждений и выборов”[62]. Он не сомневался в их надежности. И писал: “Не доверять этим данным нельзя. Они не выдумки и не статистические отклонения. Вам придется принять основные выводы исследований за истину. А еще важнее – принять их истинность применительно к вам[63].

Но Канеман напрасно столь безоговорочно доверял этим эффектам предшествования, хоть они и были опубликованы в одном из самых уважаемых научных журналов. Оказывается, наряду с разоблачением мошенничества Дидерика Стапела и публикацией “сверхъестественных” результатов Дэрила Бема именно исследование, посвященное праймингу, – или скорее неудачная попытка его повторить – стало еще одним из исходных стимулов, подхлестнувших изучение явления, известного сегодня как “кризис воспроизводимости”[64].

В том исследовании прайминга участников просили найти в списке разрозненных слов одно лишнее, так чтобы остальные слова можно было сложить в связное предложение. У одной половины участников лишние слова были случайными и нейтральными, а у другой – имеющими отношение к пожилым людям, например “старый”, “седой”, “мудрый”, “вяжет” и “Флорида” (Флорида известна в Америке как штат, где живет много пенсионеров). Выполнив задание, участники исследования могли уходить – но в тайне от них экспериментаторы замеряли, как быстро те шли по коридору к выходу из здания. Демонстрируя опять-таки ментальную связь между идеями и действиями, те участники, кого подвергли праймингу связанными со старостью словами, уходили из лаборатории медленнее по сравнению с контрольной группой[65].

Опубликованная в 1996 году, статья об этом эксперименте с тех пор была процитирована другими исследователями более пяти тысяч раз и вошла во все учебники по психологии – помню, как сам студентом изучал ее[66]. Однако в 2012 году независимая группа попыталась провести точно такой же эксперимент, только с большей выборкой и совершеннее с технической точки зрения, – и не выявила никакой разницы в скорости ухода участников. Исследователи предположили, что в исходной работе получились такие результаты, поскольку сотрудники лаборатории, замерявшие время по секундомерам, знали, кто из участников как должен был бы себя вести, и это, вероятно, отражалось на замеряемых величинах. Измерение скорости ухода с помощью инфракрасных лучей, как было сделано в исследовании-повторении, свело к нулю предполагаемый эффект прайминга[67]. В течение нескольких лет другие лаборатории пытались воспроизвести как “эффект леди Макбет”, так и эффект денежного прайминга, тоже с гораздо более внушительной и репрезентативной выборкой[68]. Эти попытки также очевидным образом провалились. Нет причин думать, что разнообразные результаты по праймингу были, процитируем Канемана, “выдумками”, – нужно исходить из предположения, что получены они были добросовестным образом. Но вот “статистические отклонения”? Пожалуй, именно они.

Другие исследования эффекта предшествования были не лучше. В одном утверждалось, что участники, подвергшиеся праймингу “расстоянием” – их попросили нарисовать на листе миллиметровки две удаленные друг от друга точки, – чаще чувствовали себя дистанцированными от друзей и родных; попытка повторить это исследование провалилась в 2012 году[69]. В другом исследовании утверждалось, что когда примеры моральных дилемм распечатывались на листах с окантовкой в шахматную клетку, то участники эксперимента выносили более поляризованные суждения, поскольку этот узор заставлял их думать о концепции “белое и черное”; попытка повторить это исследование провалилась в 2018 году[70]. Сходное направление исследований, согласно которому возможно сделать людей более категоричными, подвергнув их праймингу “отвращением”, было поставлено под сомнение в обзоре 2015 года[71].

Надо отдать Канеману должное – позже он признал, что был неправ, переоценив научную достоверность эффектов прайминга. “Экспериментальные доказательства идей, представленных мною в той главе, были значительно слабее, чем я полагал, когда писал ее, – сказал он через шесть лет после выхода книги “Думай медленно… решай быстро”. – Это было попросту ошибкой: все, что я должен был знать для того, чтобы сдерживать свой энтузиазм, я знал… но не обдумал”[72]. Однако вред уже был нанесен: нобелевский лауреат объявил миллионам людей, что “нельзя не доверять” этим исследованиям.

Прайминг – не единственный психологический эффект, о котором узнали миллионы. Гарвардский психолог Эми Кадди прославилась в 2012 году, после того как выступила на конференции TED, восхваляя “позы силы”. Непосредственно перед тем, как вы окажетесь в стрессовой ситуации, скажем на собеседовании, вам нужно потратить две минуты, советовала она, чтобы в каком-нибудь укромном уголке (вроде туалетной кабинки) встать в открытую, экспансивную позу, например широко расставив ноги и уперев руки в бедра. Эта властная поза стимулирует вас психологически и гормонально. В эксперименте, проведенном Кадди и ее коллегами в 2010 году, обнаружилось, что по сравнению с людьми, которым предписано было сидеть скрестив руки или ссутулившись, те, кому велели принять позу силы, не только чувствовали себя более властными, но и шли на больший риск в азартной игре и имели повышенный уровень тестостерона и пониженный – кортизола, гормона стресса[73].

Идея Кадди, будто люди, на две минуты принимающие позу силы, могут “существенно менять исход жизненных ситуаций”, вызвала глубокий отклик: ее выступление на конференции TED стало вторым по количеству просмотров из всех – его посмотрели больше семидесяти трех с половиной миллионов раз[74]. Далее, в 2015 году, вышла книга Кадди по саморазвитию под названием “Присутствие [духа]”, бестселлер по версии газеты The New York Times, и издатель сообщал нам, что там представлена “захватывающая наука”, способная “освободить [нас] от страха в напряженные моменты жизни”[75]. Консервативная партия Великобритании, похоже, прониклась идеей Кадди, поскольку в тот самый год появилась череда фотографий, на которых представители этой партии на разных конференциях и выступлениях принимали позы с широко расставленными ногами, что вызвало немало насмешек[76]. В том же 2015 году другая команда ученых попыталась воспроизвести эффекты поз силы. И хотя те, кто принимал такие позы, действительно сообщали о большей уверенности в себе, исследование, увы, “не подтвердило влияние поз силы на тестостерон, кортизол и финансовый риск”[77].

Кризис воспроизводимости направил прожектор критики также и на более ранние работы по психологии – со сходными тревожными результатами. Вероятно, самое известное исследование по психологии за всю историю – это стэнфордский тюремный эксперимент 1971 года, когда психолог Филип Зимбардо разделил группу молодых мужчин на “охранников” и “заключенных” и велел им неделю оставаться в импровизированной тюрьме в подвале факультета психологии Стэнфордского университета. Настораживающе быстро, по словам Зимбардо, “охранники” принялись наказывать “заключенных”, мучая их столь садистски, что Зимбардо пришлось досрочно прекратить эксперимент[78]. Наряду с исследованиями подчинения, проведенными в 1960-х годах Стэнли Милгрэмом, в которых обнаружилось, что многие участники готовы воздействовать сильными электрическими разрядами на незадачливых “учеников” (удары током и ученики были ненастоящими, но участники об этом не знали), эксперимент Зимбардо приводится как одно из основных доказательств власти ситуации над человеческим поведением[79]. Поставьте, как говорится, хорошего человека в плохую ситуацию – и дела могут очень быстро пойти очень скверно. О стэнфордском тюремном эксперименте рассказывают фактически каждому студенту на планете, изучающему психологию, и Зимбардо благодаря ему стал одним из самых известных и уважаемых современных психологов. Он использовал результаты своего эксперимента, чтобы, например, выступать в качестве свидетеля-эксперта на суде над американскими военными, служившими охранниками в иракской тюрьме Абу-Грейб. Зимбардо утверждал, что ситуация, в которой оказались охранники, и роли, которые их заставили на себя взять, – вот причины их шокирующих издевательств и пыток над заключенными[80].

Хотя выводы из стэнфордского тюремного эксперимента всегда были противоречивы, лишь недавно мы начали понимать, насколько низкокачественным было то исследование[81]. В 2019 году ученый и кинорежиссер Тибо Ле Тексье опубликовал статью под названием “Разоблачение стэнфордского тюремного эксперимента”. Он представил доселе неизвестную расшифровку видеозаписей, на которых Зимбардо вмешивается непосредственно в эксперимент, раздавая своим “охранникам” очень точные инструкции, как себя вести, – вплоть до того, что предлагает конкретные способы обесчеловечивания заключенных, например отказывать им в использовании туалетов[82]. Очевидно, столь основательно срежиссированная постановка эксперимента была далека от естественного примера того, что происходит, когда обычные люди оказываются в специфических социальных ролях. Как бы то ни было, несмотря на колоссальное внимание, которое долгие годы привлекал к себе стэнфордский тюремный эксперимент, его “результаты” с научной точки зрения не имеют смысла[83].

Как вы, наверное, догадались, психологов напугала совокупность неудавшихся попыток повторить эксперименты (как в исследованиях прайминга) и странных результатов (вроде паранормальных открытий Бема) наряду с разоблачением ложных представлений (как в эксперименте Зимбардо) и мошенничества (поддельные данные Стапела). Скольким же исследованиям в области психологии, недоумевали они, можно доверять? Чтобы получить представление о том, насколько дела плохи, они начали объединяться в команды для проведения крупномасштабных повторов значимых исследований в разных лабораториях. Самым заметным стало крупное сообщество ученых, отобравшее сто работ из трех топовых журналов по психологии и попытавшееся их воспроизвести. Читать о результатах, опубликованных в 2015 году в Science, было горько: в конечном счете лишь 39 % работ были признаны успешно воспроизведенными[84]. В другом подобном предприятии 2018 года ученые пытались повторить двадцать одно исследование по социальным наукам из двух самых авторитетных многопрофильных журналов в мире – Nature и Science. На сей раз воспроизвелось 62 %[85]. В последующих масштабных повторах исследований, касающихся разнообразных психологических феноменов, воспроизвелось 77, 54 и 38 % результатов[86]. Почти все повторы, даже успешные, продемонстрировали, что в исходных статьях эффекты были преувеличены. В целом кризис воспроизводимости легким движением руки стер, похоже, около половины всех исследований по психологии[87].

Возможно, все не столь уж плохо – по двум причинам. Во-первых, следует ожидать, что некоторые результаты, на самом деле надежные, иногда не получается воспроизвести просто по невезению[88]. Во-вторых, какие-то повторы могли провалиться из-за того, что их проводили с небольшими изменениями в методологии по сравнению с исходным исследованием (правда, если результат настолько нестабилен, что исчезает при малейших изменениях в постановке эксперимента, то возникает вопрос, имеет ли он вообще какой-то смысл и применение)[89]. По этим причинам иногда трудно понять, является результат “воспроизводимым” или нет, на основании только одной-двух попыток его повторить. Кроме того, доля воспроизводимых исследований для разных областей психологии, похоже, отличается: например, в статье 2015 года, вышедшей в Science, когнитивная психология (изучение памяти, восприятия, языка и так далее) проявила себя лучше, чем социальная (к коей относятся всевозможные исследования прайминга, обсуждавшиеся выше)[90].

Однако в целом на психологию все это подействовало опустошительно. Дело было не только в том, что разоблачались такие легковесные, эффектные исследования, как посвященные праймингу или позам силы, – огромное количество куда более “серьезных” работ по психологии (стэнфордский тюремный эксперимент и многие другие) тоже оказалось поставлено под сомнение. И проблема была не в том, что откопали какое-то ненужное старье и наглядно показали, что оно никуда не годится, – как когда папа Стефан VI в 897 году эксгумировал труп одного из своих предшественников, папы Формоза, и отдал под суд (тот был признан виновным). Нет, на работы, воспроизвести которые не удалось, продолжали как ни в чем не бывало ссылаться как ученые, так и писатели: целые направления исследований и пользующиеся хорошим спросом научно-популярные книги строились на таком шатком фундаменте. Слово “кризис” кажется весьма точным описанием ситуации.


Мы можем попробовать утешиться тем, что в психологии как дисциплине есть нечто уникальное, что и вызвало ее кризис воспроизводимости. У психологов незавидная работа: они пытаются разобраться в крайне изменчивых и чрезвычайно сложных человеческих существах, со всеми их разными личностями, знаниями, опытом, настроениями и особенностями. Изучаемые психологами объекты, такие как мысли, эмоции, внимание, способности, восприятие, обычно неуловимы – их трудно, если вообще возможно, зафиксировать в лабораторном эксперименте. А в социальной психологии ученым приходится изучать, как все эти хитросплетенные люди друг с другом взаимодействуют. Не могла ли невероятная сложность задачи сделать открытия в психологии особенно ненадежными по сравнению с другими науками?

В этом аргументе есть кое-что справедливое: во многих исследованиях по психологии интересующее ученых явление едва затрагивается, тогда как другие, более “точные” науки, скажем физика, характеризуются лучше разработанными теориями и более точными и по-настоящему объективными измерениями. Однако нельзя сказать, что только в психологии есть проблемы с воспроизводимостью: хотя ни в какой другой области науки столь систематически и детально еще не изучалась доля успешно воспроизводящихся результатов, есть намеки на однотипные проблемы в огромном количестве разных направлений.


• Экономика: в исследовании 2016 года, повторяющем восемнадцать работ по микроэкономике (когда люди приходят в лабораторию и принимают участие в экспериментах, посвященных их экономическому поведению, – что не слишком отличается от исследований по психологии), доля воспроизводимости равнялась лишь 61 %[91].

• Нейронауки: в исследовании 2018 года обнаружилось, что стандартные работы по функциональной нейровизуализации, когда с помощью магнитно-резонансной томографии регистрируется активность мозга, пока человек выполняет какие-то задания (или просто лежит внутри МРТ-сканера), отличались лишь “незначительной воспроизводимостью”[92]. Еще мир функциональной нейровизуализации сотрясла статья, в которой вскрылось, что дефолтные настройки пакета программ, широко используемого для анализа данных визуализации, содержат статистическую ошибку. Это привело к громадному числу случайных нескорректированных ложноположительных результатов и скомпрометировало примерно 10 % всех статей, когда-либо опубликованных по этой теме[93].

• Эволюционная биология и экология: на целый ряд классических результатов, давно попавших в учебники и вызубриваемых поколениями студентов, посыпались критические обзоры после попыток их воспроизвести. Так, выяснилось, что заявления о знаменитом “синдроме одомашнивания”, когда лисицы в СССР, отбираемые по признаку дружелюбности, начинали приобретать внешний облик одомашненных видов (например, висячие уши и укороченные, широкие морды), были сильно преувеличены, причем большинство признаков “приручения” существовало еще до начала процесса селекции[94]. И многое из того, что, как мы думали, нам известно о половом отборе у птиц, было развенчано при получении более надежных данных. Скажем, в противоположность тому, что мы якобы знали, красная повязка на лапках у самцов зебровых амадин, похоже, не делает их сверхпривлекательными для самок; самцы воробьев с более крупным пятном черных перьев на горле (так называемым нагрудником), похоже, не доминируют в стае; а доказательства, что самок обыкновенных лазоревок больше привлекают определенные цвета оперения у самцов, неубедительны[95].

• Биология моря: в масштабном исследовании 2020 года, повторяющем другие работы, выяснилось, что закисление океана (как и изменение климата, это одно из последствий повышения уровня диоксида углерода в атмосфере) не влияет на поведение рыб[96]. Таким образом, не удалось воспроизвести несколько исследований предыдущего десятилетия, получивших широкую огласку, которые явно показывали, что в закисленной среде рыбы становятся дезориентированными и иногда плывут по направлению к химическим сигналам хищников, а не от них.

• Органическая химия: журнал Organic Syntheses, придерживающийся необычной политики – член редколлегии пробует повторить в собственной лаборатории результаты каждой подаваемой на рассмотрение статьи, – сообщил, что отказывает авторам 7,5 % работ из-за провалившихся попыток воспроизвести исследование[97].


Есть бесчисленное множество и других примеров: почти каждый случай, что я буду описывать в этой книге, содержит научное “открытие”, при ближайшем рассмотрении оказавшееся либо менее надежным, чем казалось, либо и вовсе недостоверным. Однако еще тревожнее то, что эти примеры порождены исследованиями, которые подверглись столь тщательному изучению, – получается, это лишь те примеры, о которых мы знаем. Сколько еще результатов, должны задаться мы вопросом, окажутся невоспроизводимыми, если кому-то случится попробовать их повторить?

Одна из причин, почему мы живем в такой неопределенности, заключается в том, что, как говорилось в предисловии, почти никто не проводит исследований, повторяющих прежние работы. Хотя в нашем распоряжении для большинства областей нет количественных данных, анализ специализированной литературы для некоторых из них позволяет сделать мрачный вывод. В экономике жалкие 0,1 % всех опубликованных статей посвящены попыткам воспроизвести предыдущие исследования; в психологии этот показатель выше, но все равно весьма прискорбный – чуть больше 1 %[98]. Если все неустанно рвутся вперед к новым открытиям, не делая остановок, чтобы проверить, надежны ли уже имеющиеся знания, так ли уж удивителен приведенный выше список провалившихся попыток что-то воспроизвести?

А вот что вызывает, пожалуй, еще большую озабоченность. Казалось бы, если вы получили точно такой же набор данных, как и в опубликованной ранее статье, вы сможете прийти к абсолютно тем же результатам, что описаны авторами. К сожалению, во многих областях исследователи сталкивались с невероятными трудностями при выполнении этой вроде бы нехитрой задачи. Иногда именно подобную проблему называют проблемой воспроизводимости, в противоположность проблеме сходимости результатов (последний термин обычно используется применительно к исследованиям, в которых ученые задаются теми же вопросами, но работают с другими данными)[99]. Как это возможно, чтобы результаты в таких условиях не воспроизвелись? Иногда причина в ошибках исходного исследования. А бывает и так, что авторы исходной работы недостаточно четко описали свой анализ, например, прибегали ко всяким выкрутасам со статистикой, о которых в статье не доложили, и поэтому их конкретные шаги независимые исследователи воссоздать не могут. Когда другие ученые как-то по-своему проводят статистический анализ данных, результаты выходят иные. Такие статьи – словно кулинарная книга, где полно фотографий блюд, от которых просто слюнки текут, но мало внимания уделено описанию ингредиентов и рецептам, необходимым для создания этих шедевров.

В макроэкономике (изучающей, например, налоговую политику и ее влияние на экономическое развитие стран) при повторном анализе шестидесяти семи статей ученые, используя точно такие же наборы данных, сумели воспроизвести результаты лишь двадцати двух, и последующее привлечение к работе авторов тех статей помогло несильно[100]. В науках о Земле исследователи испытывали как минимум небольшие трудности при получении тех же результатов в случае тридцати семи из тридцати девяти изучавшихся ими статей[101]. А когда исследователи машинного обучения проанализировали набор статей об “алгоритмах рекомендаций” (это тип компьютерных программ, которые используются сайтами вроде Amazon и Netflix, чтобы на основании того, что люди вроде вас выбирали раньше, предугадывать, какую покупку вам сейчас захотелось бы сделать или какой фильм посмотреть), то смогли воспроизвести только семь из восемнадцати работ на эту тему, незадолго до того представленных на престижных конференциях по компьютерным системам[102]. Те статьи – воплощение классической карикатуры Сидни Харриса.

Вы вправе удивиться, почему некоторые из перечисленных выше примеров вообще имеют значение. Хоть мы и наблюдали плохую воспроизводимость в кое-каких важных областях, например в экономической теории, каким образом наша жизнь может измениться, если кучка ученых в итоге разойдется во взглядах на то, работают ли позы силы и отличаются ли альфа-самцы воробьев более крупным пятном черных перьев? На этот вопрос есть два ответа. Первый заключается в том, что на чашу весов положен более общий принцип: наука критически важна для нашего общества, и мы не должны допускать появления низкокачественных, невоспроизводимых исследований, компрометирующих ее, ни в одной области. Если мы позволим стандартам в любой области просесть, мы рискуем испортить репутацию науки в целом. Второй ответ связан с научным направлением, которое мы еще не рассматривали, где отсутствие воспроизводимости имеет бесспорные прямые последствия. Это, конечно же, область медицинских исследований.


“Думаю, вам следует подробнее расписать второй шаг”


Примерно в то время, когда кризис воспроизводимости назревал в психологии, ученые из биотехнологической компании Amgen попробовали повторить пятьдесят три ключевых “доклинических” исследования рака, результаты которых были опубликованы в топовых научных журналах (доклинические исследования – это те, что проводятся на первых этапах разработки лекарства, обычно на мышах или на человеческих клетках in vitro[103])[104]. Всего шесть из этих попыток (а это лишь 11 %) увенчались успехом. Итог сходных попыток другой фирмы, Bayer, оказался немногим лучше – около 20 %[105]. Подобное отсутствие строгого подкрепления результатов в области доклинических исследований – вероятно, одна из причин, по которым испытания лекарств от рака так часто разочаровывают: согласно одной оценке, только 3,4 % таких лекарств проходят весь путь от первых доклинических исследований до применения на людях[106].

Подобные неприятные открытия заставили ученых, занимающихся раком, как и психологов, задуматься об общем состоянии их области. В 2013 году они объединились для совместной попытки повторить пятьдесят важных доклинических исследований рака в независимых лабораториях[107]. В тех работах утверждалось, например, что конкретный вид бактерий может быть связан с ростом опухоли при колоректальном раке и что некоторые мутации при лейкемии связаны с активностью определенного фермента[108]. Но еще до начала проведения исследований-повторений возникли трудности. В каждой без исключений исходной статье для всех до единого экспериментов авторы приводили недостаточно сведений для того, чтобы читатель мог понять, как провести точно такой же опыт[109]. Технические детали экспериментов – например, плотность используемых клеток или особенности измерений и анализа – попросту не упоминались. Работа по повторению исследований забуксовала, поскольку потребовала обширной переписки с авторами исходных статей, которым для отыскания конкретных деталей своих экспериментов зачастую приходилось откапывать старые лабораторные журналы и связываться с бывшими коллегами[110]. Кто-то сотрудничать не хотел: о 45 % авторов исходных статей исследователи отозвались как о “минимально полезных” или “вообще не оказавших помощи”[111]. Возможно, они беспокоились, что ученые, повторяющие их работу, окажутся некомпетентными или что их будущие исследования не получат финансирования, если воспроизвести их прежние результаты не удастся[112].

Позже в более масштабном исследовании были случайным образом выбраны двести шестьдесят восемь биомедицинских статей, в том числе и из области клинических испытаний. Обнаружилось, что ни в одной из них, за единственным исключением, не содержался полный протокол исследования. А это означало опять-таки, что даже для того, чтобы предпринять попытку повторить эксперименты, требовалось знать дополнительные детали, не описанные в статье[113]. Другой анализ выявил, что в 54 % биомедицинских статей даже не описывалось толком, какие животные, реагенты или клетки использовались в экспериментах[114]. Давайте на минуту задумаемся, насколько же это странно. Если в статье исследование описывается лишь в общих чертах, а необходимые детали приходится месяцами выуживать из электронной переписки с авторами (а то они и вовсе оказываются навеки утеряны), зачем вообще было ее писать? Вернувшись мысленно хотя бы в XVII век к Роберту Бойлю, вспомним, что изначальная, глубинная цель ученых состояла в том, чтобы докладывать о каждой мелочи в своих штудиях, так чтобы другие могли досконально все изучить и попробовать повторить их исследования. Упомянутые статьи провалили эту фундаментальную проверку, равно как и опубликовавшие их журналы не сумели выполнить свою базовую, важнейшую функцию.

В проекте по воспроизведению исследований рака все эти проблемы с попытками повторить эксперименты вкупе с некоторыми финансовыми затруднениями привели к тому, что ученым пришлось постепенно сократить число работ, которые они намеревались повторить, – с пятидесяти до всего лишь восемнадцати[115]. К моменту написания этих строк отчет о повторении результатов четырнадцати из них уже опубликован, и картина получилась смешанная: для пяти исходных статей важные результаты (включая связь между лейкемией и ферментом) четко воспроизвелись, для четырех – воспроизвелись частично, для трех – совсем не воспроизвелись (в том числе связь между бактериями и колоректальным раком), а для двух результаты даже не получилось интерпретировать[116]. Повторять, стоит отметить, непросто.

Проблемы с воспроизводимостью в медицине затронули не только лабораторные доклинические исследования – они могут напрямую влиять на средства лечения, прописываемые врачами своим пациентам. Оказывается, широко распространенные средства лечения часто основаны на низкокачественных исследованиях: вместо того чтобы прочно уходить корнями в доказательства, общепризнанная медицинская мудрость регулярно вступает в противоречие с результатами новых исследований. Подобное происходит так часто, что ученые-медики Винай Прасад и Адам Сифу окрестили это явление “медицинской реверсией”[117].

Один особенно поразительный пример медицинской реверсии связан с “интранаркозным пробуждением”. Это неброское название дали жуткому (но, благо, редкому) осложнению, когда человек пробуждается во время операции, иногда чувствуя невыносимую боль от рассечения собственных тканей, и не может ни двигаться, ни говорить, ни сделать что-либо еще. Исследования 1990-х годов обосновали использование прибора под названием “монитор биспектрального индекса” (или “BIS-монитор” – от английского словосочетания bispectral index). По сути это электрод, который крепится к коже головы и позволяет хирургам удостовериться, что пациент действительно без сознания. Исследования воплотились в широко распространенную практику: к 2007 году половина операционных в США обзавелась таким прибором, и с ним было проведено около сорока миллионов операций по всему миру[118]. Однако выяснилось, что с исходными работами не все в порядке. Когда в 2008 году провели более масштабное и более высококачественное исследование, обнаружилось, что BIS-монитор бесполезен: “интранаркозное пробуждение случалось, даже когда [приборные] показания… укладывались в допустимый диапазон”[119].

В 2019 году Прасад, Сифу и их коллеги проанализировали более трех тысяч статей из трех самых престижных медицинских журналов и обнаружили, что не менее чем в трехстах девяноста шести из них опровергались устоявшиеся в медицинской практике мнения[120]. Вот лишь несколько примеров:


• Роды. В некоторых предыдущих исследованиях было показано, что, когда женщина рожает двойню, плановое кесарево сечение – самый безопасный вариант для младенцев. В результате это стало общепринятой практикой (по крайней мере в Северной Америке). Но в крупном рандомизированном исследовании 2013 года ученые не выявили никакой разницы с точки зрения здоровья детей[121].

• Аллергия. Аллергия на арахис бывает смертельной, и если у родителя она есть, то высок риск, что она разовьется и у его детей. Долгие годы рекомендации для младенцев из группы риска, основанные на результатах прежних исследований, предписывали не давать детям арахис как минимум до трех лет и кормящим матерям тоже его избегать. Оказывается, этот совет был неверным, все как раз наоборот: добротные рандомизированные испытания 2015 года показали, что лишь у примерно 2 % детей из группы риска, евших арахис в первые годы жизни, к пяти годам развилась на него аллергия, тогда как среди детей из группы риска, не употреблявших арахис, аллергия появилась почти у 14 %[122].

• Инфаркт миокарда. В некоторых небольших исследованиях было показано, что шансы выжить при остановке сердца у человека повышаются, если на несколько градусов снизить его температуру тела. Рекомендацию, основанную на этом открытии, начали включать в руководства для парамедиков. Однако в крупном исследовании 2014 года выяснилось, что охлаждение не влияет на шансы выжить, а то и вообще, возможно, повышает вероятность второго инфаркта при транспортировке пациента в больницу[123].

• Инсульт. На основании исследований предполагалось, что человека, перенесшего инсульт, лучше всего как можно раньше заставить двигаться: садиться в кровати, стоять, ходить, если возможно. Концепция “ранней мобилизации” встречается во многих широко используемых больничных методичках. Однако в масштабном рандомизированном исследовании 2015 года было показано, что ранняя мобилизация на самом деле вела к более неблагоприятным исходам для пациентов с инсультом[124]. Аналогично в исследовании 2016 года выяснилось, что принятая практика переливать пациентам с инсультом тромбоциты (это процедура, восполняющая запасы клеточных элементов, участвующих в процессе свертывания крови, что в теории помогает предотвратить дальнейшее кровотечение) в действительности все только ухудшала[125].


Вполне понятно, почему врачи и авторы клинических рекомендаций иногда невольно полагаются на малодостоверные доказательства. Зачастую альтернатива – это вообще отсутствие доказательств, а ведь их долг – помочь пациентам, нуждающимся в лечении, прямо сейчас

55

Перевод М. Лозинского.

56

Nosek B. A. et al. Scientific Utopia: II. Restructuring Incentives and Practices to Promote Truth Over Publishability. Perspectives on Psychological Science. 7, no. 6 (2012): 615–31.

57

Kahneman D. Thinking, Fast and Slow. New York: Farrar, Straus and Giroux, 2011. [Канеман Д. Думай медленно… решай быстро. М.: АСТ, 2013.]

58

Neely J. Semantic Priming Effects in Visual Word Recognition: A Selective Review of Current Findings and Theories // Basic Processes in Reading: Visual Word Recognition. Abingdon: Routledge, 2012.

59

Zhong C. B., Liljenquist K. Washing Away Your Sins: Threatened Morality and Physical Cleansing. Science. 313, no. 5792 (2006): 1451–2.

60

Vohs K. D. et al. The Psychological Consequences of Money. Science. 314, no. 5802 (2006): 1154–6.

61

Там же.

62

Перевод “Школы перевода Баканова”.

63

Kahneman D. Thinking, Fast and Slow.

64

Насколько мне известно, термин происходит из статьи Пашлера и Вагенмэйкерса, которые не использовали словосочетание “кризис воспроизводимости” впрямую, но говорили о “кризисе доверия” в психологических исследованиях после серии неудавшихся повторений. Нельсон, Симмонс и Саймонсон обсуждали причины возникновения кризиса. См. Pashler H., Wagenmakers E.-J. Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence? Perspectives on Psychological Science. 7, no. 6 (2012): 528–30; Nelson L. D. et al. Psychology’s Renaissance. Annual Review of Psychology. 69, no. 1 (2018): 511–34.

65

Bargh J. A. et al. Automaticity of Social Behavior: Direct Effects of Trait Construct and Stereotype Activation on Action. Journal of Personality and Social Psychology. 71, no. 2 (1996): 230–44.

66

Количество цитирований (точное число – 5208) дано по состоянию на январь 2020 года в соответствии с Google Scholar.

67

Doyen S. et al. Behavioral Priming: It’s All in the Mind, but Whose Mind? PLOS ONE. 7, no. 1 (2012): e29081.

68

Earp B. D. et al. Out, Damned Spot: Can the “Macbeth Effect” Be Replicated? Basic and Applied Social Psychology. 36, no. 1 (2014): 91–8. Эффект денежного прайминга: Klein R. A. et al. Investigating Variation in Replicability: A “Many Labs” Replication Project. Social Psychology. 45, no. 3 (2014): 142–52.

69

Исходное исследование: Williams L. E., Bargh J. A. Keeping One’s Distance: The Influence of Spatial Distance Cues on Affect and Evaluation. Psychological Science. 19, no. 3 (2008): 302–8. Повторение: Pashler H. et al. Priming of Social Distance? Failure to Replicate Effects on Social and Food Judgments. PLOS ONE. 7, no. 8 (2012): e42510.

70

Исходное исследование: Zarkadi T., Schnall S. “Black and White” Thinking: Visual Contrast Polarizes Moral Judgment. Journal of Experimental Social Psychology. 49, no. 3 (2013): 355–9. Повторение: IJzerman H., Laine P.-J. Does Background Color Affect Moral Judgment? Three Pre-Registered Replications of Zarkadi and Schnall’s (2012) Study 1. Preprint, PsyArXiv (30 July 2018).

71

Для прайминга “отвращением” экспериментаторы часто делали так, чтобы в помещении дурно пахло. Поэтому исследования на эту тему особенно примечательны: во многих статьях психологам приходилось с непроницаемым видом разглагольствовать об эффектах “спрея с запахом кишечных газов”, а в одной работе авторы невозмутимо обсуждали “патентованный одорант под названием «Жидкая задница»”. О средстве “Жидкая задница” см. Adams T. G. et al. The Effects of Cognitive and Affective Priming on Law of Contagion Appraisals. Journal of Experimental Psychopathology. 3, no. 3 (2012): 473. Обзор этого направления исследований: Landy J. F., Goodwin G. P. Does Incidental Disgust Amplify Moral Judgment? A Meta-Analytic Review of Experimental Evidence. Perspectives on Psychological Science. 10, no. 4 (2015): 518–36.

72

McCook A. “I Placed Too Much Faith in Underpowered Studies”: Nobel Prize Winner Admits Mistakes. Retraction Watch. 20 Feb. 2017. Еще Канеман написал открытое письмо, адресованное социальным психологам, в котором сообщил, что узрел “угрозу катастрофы”, и призвал их изменить свой подход к исследованиям; см. тут: https://go.nature.com/2T7A2NV.

73

Carney D. R. et al. Power Posing: Brief Nonverbal Displays Affect Neuroendocrine Levels and Risk Tolerance. Psychological Science. 21, no. 10 (2010): 1363–8.

74

На момент написания этой книги в феврале 2020 года общее количество просмотров на сайте TED составляло 56 миллионов, а на YouTube – еще 17,6 миллиона. Выступление исходно называлось “Язык тела формирует вашу личность”, но затем, когда грянул кризис воспроизводимости, оно было переименовано и стало называться “Язык тела может формировать вашу личность”. Cuddy A. Your Body Language May Shape Who You Are. TEDGlobal 2012. June 2012.

75

Cuddy A. J. C. Presence: Bringing Your Boldest Self to Your Biggest Challenges. New York: Little, Brown and Company, 2015. Цитаты взяты с издательского сайта: www.littlebrown.com/titles/amy-cuddy/presence/9780316256575.

76

Khaleeli H. A Body Language Lesson Gone Wrong: Why is George Osborne Standing like Beyoncé? The Guardian. 7 Oct. 2015.

77

Ranehill E. et al. Assessing the Robustness of Power Posing: No Effect on Hormones and Risk Tolerance in a Large Sample of Men and Women. Psychological Science. 26, no. 5 (2015): 653–6. С тех пор дебаты по поводу поз силы только набирали обороты. Авторы обзора 2017 года заключили, что эффекты поз силы – это “предположения, на данный момент не имеющие эмпирических обоснований”. См. Simmons J. P., Simonsohn U. Power Posing: P-Curving the Evidence. Psychological Science. 28, no. 5 (2017): 687–93. Кадди парировала своим собственным обзором, где отмечался-таки общий эффект, хотя позже и было показано, что – наряду с другими проблемами подобных исследований – большинство результатов в статьях, на которые она ссылалась, объяснялись, вероятно, отрицательным эффектом ссутуливания, нежели чем положительным воздействием поз силы. См. Cuddy A. J. C. et al. P-Curving a More Comprehensive Body of Research on Postural Feedback Reveals Clear Evidential Value for Power-Posing Effects: Reply to Simmons and Simonsohn (2017). Psychological Science. 29, no. 4 (2018): 656–66. Про ссутуливание см. Credé M. A Negative Effect of a Contractive Pose is not Evidence for the Positive Effect of an Expansive Pose: Commentary on Cuddy, Schultz, and Fosse (2018). SSRN. 2018.

78

Zimbardo P. The Lucifer Effect: How Good People Turn Evil. London: Rider, 2007. [Зимбардо Ф. Эффект Люцифера. Почему хорошие люди превращаются в злодеев. М.: АНФ, 2013.]

79

Milgram S. Behavioral Study of Obedience. Journal of Abnormal and Social Psychology. 67, no. 4 (1963): 371–8. Эксперименты Милгрэма тоже подвергались справедливой критике. Чем сильнее участники верили, что действительно бьют “учеников” током, тем с меньшей вероятностью повышали разряд. Об этом см., например: Perry G. et al. Credibility and Incredulity in Milgram’s Obedience Experiments: A Reanalysis of an Unpublished Test. Social Psychology Quarterly. 83, no. 1 (2020): 88–106.

80

Zimbardo P. Our inner heroes could stop another Abu Ghraib. The Guardian. 29 Feb. 2008.

81

Fromm E. The Anatomy of Human Destructiveness. New York: Holt, Rinehart and Winston, 1975. [Фромм Э. Анатомия человеческой деструктивности. М.: АСТ, 2004.]

82

Le Texier T. Debunking the Stanford Prison Experiment. American Psychologist. 74, no. 7 (2019): 823–39.

83

Дебаты продолжаются, и Зимбардо ответил на критику. См., например: Zimbardo P. Philip Zimbardo’s Response to Recent Criticisms of the Stanford Prison Experiment. 23 June 2018. См. также ответ Ле Тексье на более позднюю версию заявления Зимбардо (на момент написания этой книги – еще не опубликованную): Le Texier T. The SPE Remains Debunked: A Reply to Zimbardo and Haney (2020). Preprint, PsyArXiv (24 Jan. 2020).

84

Open Science Collaboration. Estimating the Reproducibility of Psychological Science. Science. 349, no. 6251 (2015): aac4716.

85

Camerer C. F. et al. Evaluating the Replicability of Social Science Experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour. 2, no. 9 (2018): 637–44.

86

Последнее число соответствует шести удачным попыткам воспроизвести шестнадцать исследований. Ebersole C. R. et al. Many Labs 3: Evaluating Participant Pool Quality across the Academic Semester via Replication. Journal of Experimental Social Psychology. 67 (2016): 68–82.

87

Тут некоторые критики могут возразить, что я сам попал в вырытую другим яму. Я подчеркивал важность надежных результатов, однако, заявляя, что разразился кризис воспроизводимости, полагаюсь на попытки воспроизвести разные исследования, которые не являются репрезентативной выборкой из всей научной литературы. Вывод о том, что лишь “около половины” опубликованных результатов воспроизводятся, возможно, нельзя обобщать на всю науку. Такой аргумент был приведен в критической заметке к одному из исследований, посвященных повторению других работ: Gilbert D. T. et al. Comment on “Estimating the Reproducibility of Psychological Science”. Science. 351, no. 6277 (2016): 1037. Хотя я не согласен со многими приведенными там аргументами (некоторые причины скепсиса описаны здесь: Lakens D. The Statistical Conclusions in Gilbert et al (2016) Are Completely Invalid. The 20 % Statistician. 6 March 2016), замечание насчет репрезентативности справедливо. Мы все еще плохо понимаем, какая именно часть результатов по всем научным направлениям воспроизводима, даже в областях вроде психологии, где были предприняты эти масштабные попытки повторить прежние результаты, – правда может оказаться пригляднее, чем показывают те исследования, или же наоборот. Но сам факт, что мы этого не знаем, – а также то, что столь много громких, нашумевших открытий рассыпалось в прах при более внимательном рассмотрении, – является, я убежден, поводом для немалого беспокойства. Ответы на другие критические замечания, оспаривающие идею, что разразился кризис, см. тут: Pashler H., Harris C. R. Is the Replicability Crisis Overblown? Three Arguments Examined. Perspectives on Psychological Science. 7, no. 6 (2012): 531–6.

88

Bird A. Understanding the Replication Crisis as a Base Rate Fallacy. British Journal for the Philosophy of Science. 13 Aug. 2018.

89

Разумеется, авторы исходной работы (те, чьи результаты не воспроизвелись) зачастую заявляли, что изменения были на самом деле значительными и серьезно испортили эксперимент. Каждый случай следует разбирать отдельно, однако подобный аргумент наводит на мысль о некой предвзятости.

90

Другая область, где все неплохо, – психология личности. Психолог Кристофер Сото провел масштабную работу по воспроизведению результатов исследований личности – корреляций личностных качеств, оцениваемых по опросникам, с такими показателями, как удовлетворенность жизнью и романтическими отношениями, религиозные и политические взгляды и карьерный успех. Доля успешно воспроизведенных результатов получилась 87 %, что весьма достойно по сравнению с другими областями, которые мы обсуждали. Soto C. J. How Replicable Are Links Between Personality Traits and Consequential Life Outcomes? The Life Outcomes of Personality Replication Project. Psychological Science. 30, no. 5 (2019): 711–27.

91

Camerer C. F. et al. Evaluating Replicability of Laboratory Experiments in Economics. Science. 351, no. 6280 (2016): 1433–6.

92

Turner B. O. et al. Small Sample Sizes Reduce the Replicability of Task-Based fMRI Studies. Communications Biology. 1, no. 1 (2018): 62.

93

Eklund A. et al. Cluster Failure: Why fMRI Inferences for Spatial Extent Have Inflated False-Positive Rates. Proceedings of the National Academy of Sciences. 113, no. 28 (2016): 7900–5; Eklund A. et al. Cluster Failure Revisited: Impact of First Level Design and Physiological Noise on Cluster False Positive Rates. Human Brain Mapping. 40, no. 7 (2019): 2017–32.

94

Lord K. A. et al. The History of Farm Foxes Undermines the Animal Domestication Syndrome. Trends in Ecology & Evolution. 35, no. 2 (2020): 125–36.

95

Зебровые амадины: Wang D. et al. Irreproducible Text-Book “Knowledge”: The Effects of Color Bands on Zebra Finch Fitness. Evolution. 72, no. 4 (2018): 961–76. См. также Law Y.-H. Replication Failures Highlight Biases in Ecology and Evolution Science. The Scientist. 31 July 2018. Воробьи: Sánchez-Tójar A. et al. Meta-analysis challenges a textbook example of status signalling and demonstrates publication bias. eLife. 7 (2008): e37385. Обыкновенные лазоревки: Parker T. H. What Do We Really Know about the Signalling Role of Plumage Colour in Blue Tits? A Case Study of Impediments to Progress in Evolutionary Biology. Biological Reviews. 88, no. 3 (2013): 511–36.

96

Clark T. D. et al. Ocean Acidification Does Not Impair the Behaviour of Coral Reef Fishes. Nature. 577, no. 7790 (2020): 370–5. См. также Enserink M. Analysis Challenges Slew of Studies Claiming Ocean Acidification Alters Fish Behavior. Science. 8 Jan. 2020. Как отмечается в этой второй статье, из того, что поведение рыб, похоже, не меняется, не следует, что нам нужно перестать беспокоиться о закислении океана, которое вызывает много других пагубных явлений. Позднее авторов исходных статей (двадцати двух штук) о закислении океана и поведении рыб обвинили в научном мошенничестве. См. Enserink M. Does Ocean Acidification Alter Fish Behavior? Fraud Allegations Create a Sea of Doubt. Science. 6 May 2021.

97

www.orgsyn.org/instructions.aspx. См. также Chawla D. S. Taking on Chemistry’s Reproducibility Problem. Chemistry World. 20 March 2017.

98

Поиск нужных статей проводился таким образом, что исследования, которые открыто не объявляли себя попытками воспроизвести предыдущие работы, могли оказаться неучтенными, поэтому итоговый процент, вероятно, на самом деле чуточку больше. Экономика: Mueller-Langer F. et al. Replication Studies in Economics – How Many and Which Papers Are Chosen for Replication and Why? Research Policy. 48, no. 1 (2019): 62–83. Психология: Makel M. C. et al. Replications in Psychology Research: How Often Do They Really Occur? Perspectives on Psychological Science. 7, no. 6 (2012): 537–42. Также обращаю ваше внимание: по поводу того, что считать попыткой воспроизвести исследование, ведутся споры. Некоторые ученые провели множество “содержательных” повторений, в целом похожих на исходное исследование, но в деталях иногда от него отличающихся. Это по-своему интересно, но это не “прямое” повторение, когда именно та же, насколько только возможно, работа проводится сызнова. Вот такого рода исследований-повторений и не хватает. См. Schmidt S. Shall We Really Do It Again? The Powerful Concept of Replication is Neglected in the Social Sciences. Review of General Psychology. 13, no. 2 (2009): 90–100.

99

Во избежание путаницы заметим, что в англоязычной специализированной литературе существуют два разных термина: “проблема сходимости результатов” (replicability или repeatability) и “проблема воспроизводимости результатов” (reproducibility). В русскоязычной же литературе обычно не делается различий между этими случаями и используется единый термин – “проблема воспроизводимости”. Учитывая, что и в английском языке применение двух разных терминов не строгое (на что, в частности, указывает и сам автор в примечании 49 к этой главе), в русском переводе данной книги используется только термин “воспроизводимость”, тем более что необходимые детали соответствующих исследований там, где они важны, поясняются автором отдельно. (Здесь и далее – прим. перев.)

100

Chang A. C., Li P. Is Economics Research Replicable? Sixty Published Papers from Thirteen Journals say “Usually Not”. Finance and Economics Discussion Series. 2015, no. 83 (2015): 1–26. Washington: Board of Governors of the Federal Reserve System. Подробный обзор проблемы воспроизводимости в экономике: Christensen G., Miguel E. Transparency, Reproducibility, and the Credibility of Economics Research. Working Paper no. 22989. National Bureau of Economic Research. 2016.

101

Konkol M. et al. Computational Reproducibility in Geoscientific Papers: Insights from a Series of Studies with Geoscientists and a Reproduction Study. International Journal of Geographical Information Science. 33, no. 2 (2019): 408–29.

102

И даже хуже: из этих семи статей в целых шести методы избыточны по сравнению с гораздо более простыми методами, которые были известны за много лет до того, как создавались эти новые алгоритмы. Dacrema M. F. et al. Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches. RecSys 2019. Copenhagen, Denmark. См. также отчет по компьютерным наукам, который дает понять, что у новых исследователей не получается воспроизвести результаты применения нескольких классических алгоритмов – а это своего рода бомба замедленного действия, поскольку “молодые ученые не хотят выглядеть хулителями старших коллег”, публикуя статьи о провалившихся попытках воспроизвести действие алгоритмов, которые были разработаны старшими коллегами и на которых держится их репутация. Hutson M. Artificial Intelligence Faces Reproducibility Crisis. Science. 359, no. 6377 (2018): 725–6.

103

То есть в пробирке.

104

Begley C. G., Ellis L. M. Raise Standards for Preclinical Cancer Research. Nature. 483, no. 7391 (2012): 531–3.

105

Prinz F. et al. Believe It or Not: How Much Can We Rely on Published Data on Potential Drug Targets? Nature Reviews Drug Discovery. 10 (2011): 712. Обратите внимание, что приведенная в статье сотрудниками Bayer диаграмма включает только 70 % исследований рака – остальные 30 % связаны с женским здоровьем или сердечно-сосудистой системой.

106

Wong C. H. et al. Estimation of Clinical Trial Success Rates and Related Parameters. Biostatistics. 20, no. 2 (2019): 273–86. Из всех разнообразных лекарств доля тех, что добираются от доклинических испытаний до применения на людях, оценивается в данной работе в 13,8 %, так что с исследованиями рака все особенно плохо.

107

Nosek B. A., Errington T. M. Reproducibility in Cancer Biology: Making Sense of Replications. eLife. 6 (2017): e23383. В названии “Проект по проверке воспроизводимости: биология рака” термин “воспроизводимость” используется в том же смысле, в каком я использую слово “сходимость” (то есть попытка получить те же результаты на другой выборке). Я выбрал определения для этой книги таким образом, чтобы отразить сложившийся консенсус, однако стоит понимать, что не все придерживаются той же терминологии.

108

Repass J. et al. Replication Study: Fusobacterium Nucleatum Infection is Prevalent in Human Colorectal Carcinoma. eLife. 7 (2018): e25801.

109

Errington T. Reproducibility Project: Cancer Biology – Barriers to Replicability in the Process of Research. 2019. https://osf.io/x9p5s/

110

Baker M., Dolgin E. Cancer Reproducibility Project Releases First Results. Nature. 541, no. 7637 (2017): 269–70; Engber D. Cancer Research Is Broken. Slate. 19 April 2016.

111

Errington T. Reproducibility Project (см. слайд 11).

112

Kaiser J. The Cancer Test. Science. 348, no. 6242 (2015): 1411–3.

113

Iqbal S. A. et al. Reproducible Research Practices and Transparency across the Biomedical Literature. PLOS Biology. 14, no. 1 (2016): e1002333. Обратите внимание, что в полную выборку вошло 441 исследование, но только 268 из них содержали эмпирические данные.

114

Vasilevsky N. A. et al. On the Reproducibility of Science: Unique Identification of Research Resources in the Biomedical Literature. PeerJ. 1 (2013): e148. Проблемы, касающиеся недостаточно подробного написания статей, выходят за пределы биомедицины. О политологии, например, см. Wuttke A. Why Too Many Political Science Findings Cannot Be Trusted and What We Can Do About It: A Review of Meta-Scientific Research and a Call for Academic Reform. Politische Vierteljahresschrift. 60, no. 1 (2019): 1–19. Об экологии см. Parker T. H. et al. Transparency in Ecology and Evolution: Real Problems, Real Solutions. Trends in Ecology & Evolution. 31, no. 9 (2016): 711–9.

115

Kaiser J. Plan to Replicate 50 High-Impact Cancer Papers Shrinks to Just 18. Science. 31 July 2018. Обратите внимание, что в примечании 51 к этой главе (Errington T. Reproducibility Project) обсуждается пятьдесят одно исследование, а не пятьдесят.

116

Все о “Проекте по проверке воспроизводимости: биология рака” см. здесь: https://elifesciences.org/collections/9b1e83d1/reproducibility-project-cancer-biology.

117

Prasad V. K., Cifu A. S. Ending Medical Reversal: Improving Outcomes, Saving Lives. Baltimore: Johns Hopkins University Press, 2015.

118

Lang J. Awakening. The Atlantic. Feb. 2013.

119

Avidan M. S. et al. Anesthesia Awareness and the Bispectral Index. New England Journal of Medicine. 358, no. 11 (2008): 1097.

120

Herrera-Perez D. et al. A Comprehensive Review of Randomized Clinical Trials in Three Medical Journals Reveals 396 Medical Reversals. eLife. 8 (2019): e45183. Это было продолжением похожего исследования тех же авторов, когда обнаружилось 146 “медицинских реверсий”: Prasad V. et al. A Decade of Reversal: An Analysis of 146 Contradicted Medical Practices. Mayo Clinic Proceedings. 88, no. 8 (2013): 790–8.

121

Barrett J. F. R. et al. A Randomized Trial of Planned Cesarean or Vaginal Delivery for Twin Pregnancy. New England Journal of Medicine. 369, no. 14 (2013): 1295–1305.

122

Du Toit G. et al. Randomized Trial of Peanut Consumption in Infants at Risk for Peanut Allergy. New England Journal of Medicine. 372, no. 9 (2015): 803–13.

123

Kim F. et al. Effect of Prehospital Induction of Mild Hypothermia on Survival and Neurological Status Among Adults with Cardiac Arrest: A Randomized Clinical Trial. JAMA. 311, no. 1 (2014): 45–52.

124

AVERT Collaboration. Efficacy and Safety of Very Early Mobilisation within 24 h of Stroke Onset: A Randomised Controlled Trial. Lancet. 386, no. 9988 (2015): 46–55.

125

Baharoglu M. I. et al. Platelet Transfusion versus Standard Care after Acute Stroke Due to Spontaneous Cerebral Haemorrhage Associated with Antiplatelet Therapy (PATCH): A Randomised, Open-Label, Phase 3 Trial. Lancet. 387, no. 10038 (2016): 2605–13.

Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке

Подняться наверх