Читать книгу Синдром Паганини и другие правдивые истории о гениальности, записанные в нашем генетическом коде - Сэм Кин - Страница 7
Часть I. A, Г, Т, Ц и ты
Как читается генетический код
Глава 4. Саундтрек ДНК
Информация какого рода содержится в ДНК?
ОглавлениеЭто, конечно, произошло случайно, тем не менее каламбур из «Алисы в Стране чудес» в последнее время вступил в любопытный резонанс с ДНК. В реальной жизни автор «Алисы» Льюис Кэрролл, он же Чарльз Лютвидж Доджсон, преподавал математику в Оксфордском университете. А одним из самых известных (по крайней мере фанатам) эпизодом из «Алисы» являются стенания Черепахи Квази о «четырех действиях арифметики – скольжении, причитании, умилении и изнеможении[16]». Однако прямо перед этим Черепаха Квази говорит нечто примечательное, утверждая, что в школьные годы не «развивался», а «извивался»[17]. Конечно, это просто очередная шуточка, однако слово «извиваться» пробудило интерес со стороны некоторых математически подкованных исследователей ДНК.
Специалистам давным-давно было известно, что ДНК, длинная и активная молекула, может запутываться в самые невероятные клубки. А вот чего ученые не могли понять, так это того, почему эти клубки не засоряют наши клетки. Современные биологи ищут ответ на этот вопрос не в самой известной области математики – теории узлов. Уже много тысяч лет, как моряки и портные оценили практическую пользу узлов, в религиозных традициях – причем у таких далеких друг от друга людей, как кельты и буддисты, – определенные узлы считались священными, но систематическое изучение узлов началось только в конце XIX века, в викторианской Англии Кэрролла (Доджсона). В то время ученый-универсал Уильям Томсон, лорд Кельвин, предположил, что все элементы периодической системы химических элементов (таблицы Менделеева) на самом деле – микроскопические узлы различной формы. Точнее говоря, Кельвин определял эти атомные узлы как закрытые петли (узлы с распутанными концами, что-то вроде шнурков для ботинок – это «клубки»). Также он определил «уникальный» узел – уникальный образец нитей, пересекающихся над и под друг другом. Таким образом, если стянуть эти петли в один узел и распутать все его пересечения, чтобы сделать их похожими на другой узел, они останутся тем же самым узлом. Кельвин предположил, что уникальная форма каждого узла приводит к возникновению различных свойств у каждого химического элемента. Вскоре физики-ядерщики опровергли эту мудреную теорию, но Кельвин вдохновил шотландского физика П. Г. Тэта начертить диаграмму уникальных узлов, и с тех пор теория узлов продолжала развиваться совершенно обособленно.
Черепаха Квази, персонаж Льюиса Кэрролла, плачет, вспоминая, как «извивался» в школе. Эти его жалобы резонируют с современными исследованиями узлов и переплетений ДНК (Джон Тенниел)
Поначалу теория узлов включала в себя в основном игры с «колыбелью для кошки» и подсчет их итогов. Самый тривиальный узел – О («в миру» – круг) специалисты педантично называли «не-узлом». Прочие уникальные узлы классифицировались по числу пересечений, и в итоге к июлю 2003 года ученые могли идентифицировать 6 217 553 258 отдельных узлов, имеющих до 22 различных причудливых переплетений, то есть примерно по одному узлу на каждого жителя Земли. Между тем другие специалисты по теории узлов не ограничились простым перечислением возможных вариантов и разработали пути трансформации одного узла в другой. Для этого, как правило, вырезается участок нити в месте пересечения, перемещается под верхнюю нить, после чего нити снова соединяются отрезанными концами. Иногда это делает узлы более сложными и запутанными, но часто и наоборот, упрощает их. Теорию узлов изучают авторитетные математики, но, несмотря на это, в ней по-прежнему господствует атмосфера игры. Если не считать претендентов на Кубок Америки по парусному спорту, никому и не снилось применение теории узлов на практике – до тех пор, пока в 1976 году не было обнаружено, что ДНК тоже завязывается узлом.
Цепочка ДНК переплетается и завязывается в узлы по нескольким причинам: это и ее длина, и постоянная активность, и, вместе с тем, изолированность от других цепочек. Ученые успешно проводили симуляции ДНК внутри активного клеточного ядра: помещали в коробку длинную тонкую веревку и затем трясли ящик. Концы веревки причудливейшим образом переплетались, за несколько секунд образуя удивительно сложные узлы, имевшие до 11 пересечений (вы легко сможете это себе представить, если когда-нибудь роняли в сумку наушники и через некоторое время пытались достать их оттуда). Подобные клубки в ДНК могут привести к летальному исходу, так как клеточные механизмы, отвечающие за копирование и транскрибирование ДНК, должны делать это спокойно и постепенно; узлы же этот процесс срывают. К сожалению, смертоносные узлы и переплетения могут создаваться и во время самих процессов копирования и транскрибирования ДНК. Копирование ДНК требует разделения спирали на две нити, но разделить две тесно переплетенные нити такой спирали не проще, чем плотно сплетенный волосяной жгут. Более того, когда клетки начинают копировать ДНК, длинные липкие свободно раскачивающиеся нити могут переплестись между собой. Если не произойдет хорошего рывка и нити не выпутаются, это сплетение окажется губительным – произойдет своеобразное самоубийство клетки.
Кроме собственно узлов, ДНК может оказаться и в других топологических переделках. Линии могут сцепиться друг с другом, как соседние звенья цепи. Они могут очень плотно перепутаться, испытав такое усилие, которое мы прилагаем к тряпке, когда выжимаем ее, или же к клейму, прижимаемому к предплечью. Они могут свернуться кольцами туже, чем гремучие змеи. И вот как раз последняя из конфигураций – кольца – возвращает нас к Льюису Кэрроллу и Черепахе Квази. Специалисты по теории узлов определили некоторые кольца как «корчи», а весь процесс образования колец сравнили с извиванием от боли, как если бы нити ДНК переплетались в агонии. Может, Черепаха Квази, как считают некоторые современные исследователи, хитро ссылается на теорию узлов с ее «извивами»?
С одной стороны, Кэрролл работал в престижном университете как раз в то время, когда Кельвин и Тэт начали изучать теорию узлов.
* * *
Теория узлов была не единственной математической проблемой, появлявшейся во время исследований ДНК. Для этого также использовались диаграммы Венна и принцип неопределенности Гейзенберга. Архитектура ДНК обнаруживает следы «золотого сечения» – отношения длины к ширине, которое наблюдается в классических зданиях, таких, как Парфенон. Геометры-энтузиасты скручивали ДНК лентой Мебиуса, конструировали из нее все пять правильных многогранников. Специалистам по клеточной биологии теперь известно, что, даже просто для того, чтобы закрепиться в ядре, длинная волокнистая ДНК должна сложиться и разложиться во фрактальную модель: петли внутри петель внутри петель – при этом практические невозможно определить, какой шкалой – нано-, микро-, миллиметровой – вы сейчас пользуетесь. Наиболее же невероятное достижение покорилось группе японских ученых, которые, присвоив комбинациям А, Ц, Г и Т определенные буквенные и цифровые значения, смогли внедрить закодированную надпись «E = mc2 1905!» в ДНК обычной почвенной бактерии.
ДНК особенно близко связана с весьма оригинальным разделом математики под названием «закон Ципфа», феноменом, который впервые описал не математик, а лингвист. Джордж Кингсли Ципф происходил из солидного немецкого рода (его семья управляла пивоварнями в Германии) и в конце концов добился должности профессора немецкого языка в Гарвардском университете. Несмотря на свою любовь к языку, Ципф не был библиофилом и, в отличие от своих коллег, проживал за Бостоном на семиакровой ферме с виноградником, свинарником и курятником, хотя особо хозяйством и не занимался. В дневное время он в основном отсыпался, так как большинство ночей проводил, штудируя библиотечные книги и изучая статистические закономерности языков.
Один из коллег как-то сказал про Ципфа, что тот «может ощипать прекрасную розу, чтобы сосчитать ее лепестки». С литературой Ципф обходился столь же бесцеремонно. Будучи студентом, он взялся за «Улисса» Джойса, и главное, что он вынес оттуда, – роман состоит из 260 430 слов, 29 899 из которых различны. Так же Ципф препарировал «Беовульфа», Гомера, тексты китайской литературы и творчество римского драматурга Плавта. Подсчитывая слова в каждом из произведений, он открыл закон Ципфа. Он гласит, что наиболее распространенное слово в языке встречается примерно вдвое чаще, чем второе по распространенности, примерно втрое чаще, чем третье, в сто раз чаще, чем сотое по распространенности, и т. д. В английском языке слово «the» составляет примерно 7 % от всех слов, «of» – примерно половину от этого, «a» – треть от этого и т. д., вплоть до экзотических слов типа «бустрофедон». Такое распределение соблюдается во всех языках – от санскрита и этрусского до современных хинди, испанского или русского (эти языки Ципф анализировал по прейскурантам каталогов от компании «Сирс»). Закон Ципфа действует даже по отношению к искусственным языкам.
Уже после смерти Ципфа в 1950 году ученые обнаружили свидетельства того, что его закон соблюдается отнюдь не только в языке. Его также можно проследить: в музыке (подробнее об этом расскажем чуть позже), списках городов по численности населения, распределении доходов, массовом вымирании живых существ, магнитудах землетрясений, соотношении различных цветов в картинах или мультфильмах и т. д. В каждом случае самый большой или самый распространенный из элементов был вдвое больше/распространеннее второго в списке, втрое – третьего и т. п. Внезапная популярность этой теории ожидаемо привела и к обратной реакции, особенно среди лингвистов, которые часто ставят под сомнение само существование этого закона[18]. В то же время многие другие специалисты защищают этот закон, так как он видится корректным – частота слов не кажется случайной – и, опытным путем, описывает языки со сверхъестественной точностью. Даже «язык» ДНК.
Конечно, соблюдение закона Ципфа в случае с ДНК на первый взгляд не кажется очевидным, особенно для носителей западноевропейских языков. В отличие от большинства языков ДНК не имеет очевидных пробелов, помогающих отличать каждое слово. Это скорее напоминает тексты древних рукописей, без каких-либо пробелов, пауз и без единого знака препинания, бесконечные строки букв. Можно предположить, что триплеты, состоящие из А, Ц, Г и Т, которые кодируют аминокислоты, могут выступать в качестве «слов», но их соотношение совсем не похоже на ципфианское. Чтобы найти действие закона Ципфа, ученым пришлось обратить внимание на группы триплетов, и в этих поисках некоторые специалисты обратились к необычным помощникам: китайским поисковым системам. Китайский язык создает сложные слова путем связи соседних символов. Так, если в китайском тексте написано АБВГ, поисковые системы могут выступать своеобразным раздвижным окном, в котором помещаются найденные значимые отрывки: сначала АБ, БВ и ВГ, затем АБВ и БВГ. Использование принципа «раздвижного окна» оказалось неплохой стратегией для поиска значимых отрывков ДНК. Оказалось, что, в каком-то смысле, ДНК выглядит даже более ципфианской, чем язык, в группах, каждая из которых насчитывает до двадцати оснований. В общем, возможно, что наиболее значимой единицей для ДНК может быть не триплет, а четыре триплета, работающих сообща, – додекаэдрный мотив.
Выражение ДНК и ее трансляция в белки также подчиняются закону Ципфа. Как и распространенные слова, некоторые гены в каждой клетке появляются снова и снова, в то время как большинство генов вряд ли примут участие в конверсии. На протяжении веков клетки учились полагаться на эти общие белки все в большей и большей степени, и наиболее распространенные из них появлялись вдвое, втрое, вчетверо раз чаще, чем белки, следующие по популярности. Честно говоря, многие ученые хмыкают, что эти ципфианские фигуры вовсе ничего не значат; но другие специалисты говорят, что уже самое время признать: ДНК не только аналогична языку, но и реально функционирует, как язык.
И не только язык: ДНК обладает теми же ципфианскими свойствами, что и музыка. Возьмем тональность какого-нибудь музыкального отрывка, например до мажор, и убедимся, что определенные ноты там встречаются чаще остальных. Ципф действительно как-то исследовал преобладание тех или иных нот у Моцарта, Шопена, Ирвинга Берлина и Джерома Керна – и (внимание!) нашел ципфианское распределение! Позже исследователи подтвердили справедливость этих выводов и в других музыкальных жанрах, от Россини до Ramones, и обнаружили подобные пропорции не только во встречаемости нот, но и в тембре, и в громкости звука.
Однако если ДНК демонстрирует ципфианские тенденции, можно ли сказать, что цепочки организованы в своего рода партитуру? Музыкантам на практике удалось перевести А-Ц-Г-Т последовательность серотонина – химической составляющей мозга – в небольшие песенки, заменяя четыре символа ДНК нотами: ля (А), до (С), соль (G) и, поскольку буква T никакой ноте не соответствует, ми (Е). Другие музыканты составляли ДНК-мелодии, присваивая ноты звукоряда определенным аминокислотам, которые встречаются чаще остальных: это привело к появлению более сложных и приятных звуков. Второй метод укрепил идею, что ДНК, как во многом и музыка, лишь частично представляет собой строгую последовательность «нот». Она также определяется мотивами и темами, показывает, как часто появляются определенные последовательности и хорошо ли они взаимодействуют. Один биолог даже доказывал, что музыка – это природный посредник в изучении того, как комбинируются частицы генома, с тех пор как люди обзавелись четким слухом, чтобы улавливать, как фразы сообща действуют в музыке.
Нечто еще более интересное произошло, когда двое ученых, вместо того чтобы превращать последовательность ДНК в музыку, решили осуществить обратный процесс и перевели ноты ноктюрна Шопена в ДНК. Итогом опыта стала последовательность, «поразительно похожая» на часть гена РНК-полимеразы. Эта полимераза, белок, не меняющийся на протяжении всей жизни организма, и есть то, с помощью чего из ДНК строится РНК. А это, если посмотреть внимательнее, обозначает, что ноктюрн копирует весь жизненный цикл. Смотрите сами: полимераза использует ДНК для построения РНК. РНК, в свою очередь, строит сложные белки. Эти белки образовывают клетки, а из клеток происходят люди – такие, как Шопен. Композитор выполняет свою работу – создает гармоничную музыку, которая завершает цикл, кодируя ДНК на постройку полимеразы. Так музыковедение обобщает всю онтологию.
Является ли это открытие случайностью? Не совсем. Ученые утверждают, что впервые гены появились в ДНК не случайным образом, по какому-нибудь старому участку хромосомы. Вместо этого они начали дублироваться сразу в виде повторяющихся фраз, десятка-другого оснований ДНК, дублированных снова и снова. Эти участки функционируют как основная музыкальная тема, куда композитор добавляет всякие приятные излишества, побочные мелодии, с помощью которых создает приятно звучащие вариации на основе оригинала. Продолжая оперировать этими понятиями, заметим, что гены с самого начала имеют определенную «мелодию», на основе которой они и построены.
Люди давно хотели связать музыку с какими-то более глубокими, более грандиозными природными процессами. В частности, астрономы – начиная от древнегреческих и заканчивая Кеплером – верили, что небесный путь планет проходит через рай земной и что планеты создали безумно красивую музыку небесных сфер – гимн во славу творения. И оказалось, что универсальная музыка существует на самом деле, только гораздо ближе, чем мы себе представляли, – в нашей ДНК.
* * *
Генетика и лингвистика связаны не только законом Ципфа, но еще глубже. Мендель, до того как стать монахом, пробовал себя в лингвистике, в том числе пытался вывести точный математический закон по поводу того, как немецкие фамильные суффиксы (такие, как «-манн» или «-бауэр») скрещиваются с другими именами и воспроизводят себя в каждом поколении (звучит знакомо, не правда ли?) И, черт возьми, сейчас генетики не могут даже говорить о своей работе безо всех этих терминов, позаимствованных из изучения языков. У ДНК есть синонимы, переводы, пунктуация, префиксы и суффиксы. Мутации с изменением смысла (с заменой аминокислот) и с утратой смысла (с вмешательством стоп-кодонов) – это, как правило, «опечатки», а мутации, связанные со сдвигом рамки считывания (искажающие смысл триплетов) – это старомодные ошибки, связанные с нарушением работы типографии. В генетике даже есть свои грамматика и синтаксис: правила для комбинирования «слов» из аминокислот и сложения белковых «предложений», которые может прочитать клетка.
Более конкретно говоря, генетические грамматика и синтаксис задают правила того, как клетка должна образовывать рабочий белок из цепочки аминокислот. Белки должны быть организованы в компактные формы, перед тем как они начнут работать, и если форма будет неправильной, то к работе они тоже не приступят. Правильная синтаксическая и грамматическая «укладка» – важная часть общения на языке ДНК. Тем не менее общение требует большего, чем правильная грамматика и синтаксис; белковая фраза должна что-то значить для клетки. Как ни странно, такие фразы могут быть синтаксически и грамматически безупречными, но не иметь никакого биологического смысла. Понять, что это значит, поможет обращение к словам лингвиста Ноама Хомского. Он пытался доказать независимость синтаксиса от смысла высказывания в человеческой речи. Его пример звучал как «бесцветные зеленые идеи разъяренно спят». О Хомском можно думать всякое, но это предложение – одна из самых замечательных фраз, когда-либо произнесенных. В нем нет никакого буквального смысла. Однако поскольку оно содержит реальные слова, и его синтаксис с грамматикой также корректны, мы можем проследить его смысл. Это совсем не бессмыслица.
Таким же образом мутации ДНК могут привести к появлению случайных аминокислотных «слов» или «фраз», и клетки автоматически соберутся в новую цепь, совершенно синтаксическим способом, основанным на физике и химии. Однако любые изменения слов могут привести к изменению как формы, так и содержания всего предложения, и от этого результата зависит весь смысл. Иногда новая белковая фраза содержит лишь небольшую помарку, маленькую поэтическую вольность, которую клетка, поработав, может исправить. Иногда же изменения (такие, как фреймшифт-мутации[19]) так искажает предложение, что оно начинает выглядеть как случайный набор символов (например, #$%^&@!), которыми обозначаются бранные слова героев комиксов. Клетка от этого заболевает и умирает. Но нередко случается и так, что клетка читает белковое предложение, захламленное всякой бессмыслицей… однако, как следует вникнув в такую неразбериху, все-таки находит в ней рациональное зерно! Совершенно неожиданно возникает нечто чудесное, вроде кэрролловских «хливких шорьков» или загадочного столового прибора[20] Эдварда Лира. Это одна из редких полезных мутаций, и благодаря таким удачным моментам эволюция и продвигается вперед[21].
Благодаря четким параллелям между строением ДНК и языка ученые могут анализировать литературные произведения и геномные «тексты», используя одни и те же инструменты. Эти инструменты кажутся особенно перспективными для изучения спорных текстов, чье авторство или биологическое происхождение точно не определено. Литературоведы, как правило, сравнивают текст с отрывком из другого произведения, чье авторство известно, и делают выводы, одинаковы ли их стиль и тон. Иногда применяется другой метод: систематизация и подсчет слов, которые используются в тексте. Оба подхода нельзя назвать совершенными: первый слишком субъективен, а второй – слишком безлик. В случае с ДНК сравнение спорных геномов часто включает соотнесение с несколькими десятками ключевых генов и поиски малейших различий. Но эта технология потерпела неудачу, причем в случаях с самыми разными биологическими видами. Причина провала в том, что различий можно найти чрезвычайно много, и непонятно, какие из них по-настоящему важны. Будучи сосредоточенной исключительно на генах, эта техника игнорирует полосы регуляторной ДНК, из которой гены выпадают.
Чтобы избежать этих проблем, ученые из Калифорнийского университета в Беркли в 2009 году разработали программное обеспечение, с помощью которого «окна» скользят вдоль цепочки символов в поисках сходств и образцов. В качестве эксперимента ученые таким образом проанализировали геномы млекопитающих и тексты нескольких десятков книг, таких как «Питер Пэн», «Книга Мормона» и «Государство» Платона. Было обнаружено, что одно и то же программное обеспечение способно, с одной стороны, классифицировать ДНК различных видов млекопитающих, а с другой – классифицировать книги по жанрам с идеальной точностью. Обратившись к спорным текстам, ученые погрузились в изучение постоянно вызывающего споры вопроса о том, получил ли Шекспир достаточно хорошее образование для того, чтобы написать свои пьесы. И программа показала, что классик действительно написал драму «Два знатных родича» – пьесу, авторство которой постоянно подвергалось сомнению, – но не написал «Перикла», другую пьесу спорного авторства. Затем команда из Беркли изучила геномы вирусов и архебактерий, самых старых и в массе своей чужеродных для нас форм жизни. Этот анализ выявил новые связи между этими организмами и другими микробами, в результате были выдвинуты новые предложения по их классификации. Из-за огромного объема данных анализ геномов мог получиться весьма глубоким: в течение года 320 компьютеров занимались только тем, что сканировали микробы и архебактерии. Однако анализ этих геномов позволил ученым выйти за рамки обычного пошагового сравнения генов и понять полную естественную историю этих биологических видов.
* * *
Расшифровка полной геномной истории, однако, требует более сложных навыков, чем работа с другими текстами. Расшифровка ДНК требует чтения и слева направо, и справа налево – так называемый бустрофедон. В противном случае можно пропустить важные палиндромы и морднилапы: соответственно слова, которые одинаково читаются с обеих сторон или же приобретают другой смысл при прочтении с конца.
Один из самых древних известных палиндромов – высеченный на стене в Помпеях (и других городах) магический квадрат, слова в котором читаются сверху вниз, снизу вверх, справа налево и слева направо:
S-A-T-O-R
A-R-E-P-O
T-E-N-E-T
O-P-E-R-A
R-O-T-A-S[22]
Насчитывая примерно две тысячи лет от роду, данная надпись на порядок младше, чем по-настоящему древние палиндромы в ДНК, которая создала целых два вида палиндромов. Во-первых, это фразы традиционного («А роза упала на лапу Азора») типа: например, Г-А-Т-Т-А-Ц-А-Т-Т-А-Г. Однако поскольку АТ и ЦГ – это парные основания, ДНК образовывает и другие, менее явные палиндромы, которые спереди читаются по одной нити, а сзади – по другой. Сравните нить Ц-Т-А-Г-Ц-Т-А-Г, затем представьте основания, которые должны появиться на другой нити: Ц-А-Т-Ц-Г-А-Т-Ц. Это совершенные палиндромы.
Безобидный на вид, этот второй тип палиндрома может нагнать страху на любого микроба. Давным-давно многие микробы выделяли специальные белки (под названием «ферменты рестрикции»), которые могли резать ДНК подобно кусачкам. И по какой-то причине эти ферменты могут разрезать ДНК только в ее симметричных, палиндромных участках. Подобные надрезы служат и полезным целям: к примеру, выбрасывают из спирали основания, пораженные радиацией, или снимают напряжение в сильно запутанной ДНК. Однако непослушные микробы в основном использовали эти белки, чтобы воевать друг с другом и перерабатывать чужой генетический материал. В результате микробы методом проб и ошибок научились избегать даже неочевидных палиндромов.
Впрочем, высшие существа, к которым относимся мы сами, тоже не то чтобы толерантны к палиндромам. Снова рассмотрим Ц-Т-А-Г-Ц-Т-А-Г и Г-А-Т-Ц-Г-А-Т-Ц. Отметим, что начало каждого из палиндромных сегментов может образовывать пары оснований со своей второй половиной: первая буква с последней (Ц…Г), вторая с предпоследней (А…Т) и т. д. Но для того, чтобы сформировать эти внутренние связи, одна сторона нити ДНК должна абстрагироваться от другой и выгнуться вверх, образовав выступ. Такая структура (так называемая шпилька) благодаря симметричному строению может образовывать ДНК-палиндром любой длины. Как и следовало ожидать, «шпильки» могут разрушать ДНК так же, как и узлы: разрушая клеточные механизмы.
Палиндромы могут возникнуть в ДНК двумя способами. Самые короткие ДНК-палиндромы, которые становятся причиной появления «шпилек», возникают случайно, когда А, Ц, Г и Т организуются симметрично. Более длинные палиндромы также перетряхивают наши хромосомы, и многие из них – особенно те, которые наносят серьезный ущерб маленькой Y-хромосоме – возможно, возникают в результате специфического двухступенчатого процесса. По различным причинам хромосомы иногда случайным образом дублируют отрезки ДНК, а потом вставляют вторую копию куда-нибудь вниз по линии. Также хромосомы могут (иногда после разрыва сразу двух нитей) разворачивать отрезок ДНК на 180 градусов и прикреплять их задом наперед. Действуя в тандеме, дупликация и инверсия создают палиндром.
Большинство хромосом, однако, препятствуют появлению длинных палиндромов или по крайней мере стараются не допускать инверсий, которые они создают. Инверсия может разрушить или «отключить» гены, оставив хромосому неэффективной. Также инверсии могут резко уменьшить шансы хромосомы на кроссинговер – а это огромная потеря. Кроссинговер (когда одинаковые хромосомы пересекаются и обмениваются сегментами) позволяет хромосоме поменять свой генетический материал, приобрести лучшие версии, или версии, которые лучше работают вместе и делают хромосому более жизнеспособной. Не менее важно то, что хромосомы пользуются преимуществами кроссинговера, чтобы выполнить проверку контроля качества: они могут выстроиться в две шеренги, «глаза в глаза» и заменить мутировавшие гены немутировавшими. Однако хромосома может пересекаться только с хромосомой, которая выглядит точно так же. Если же партнер выглядит подозрительно не похоже, хромосома опасается получить болезнетворную ДНК и отказывается от обмена. Инверсии на этом фоне выглядят чертовски подозрительно, поэтому в подобных обстоятельствах хромосомы с палиндромами просто игнорируются.
У Y-хромосомы нетерпимость к палиндромам проявилась с самого начала. Давным-давно, еще до того, как млекопитающие отделились от рептилий, Х и Y были парными хромосомами и пересекались часто. Затем, 300 миллионов лет назад, один из генов хромосомы Y мутировал и превратился в «главный выключатель», заставляющий яички развиваться. До этого, вероятно, пол животного зависел от температуры, при которой самка высиживает яйца – схожая не имеющая отношения к генетике система определяет пол черепах и крокодилов. Благодаря этому изменению Y стала «мужской» хромосомой и, пройдя через разнообразные процессы, сконцентрировала другие мужские гены, преимущественно связанные с производством сперматозоидов. Как следствие, Х и Y стали выглядеть по-разному и, соответственно, уклоняться от кроссинговера. Хромосома Y не захотела рисковать своими генами, которые могла переписать злобная Х-хромосома, в то время как Х не хочет приобретать грубые гены хромосомы-мужлана, которые могут повредить женским ХХ-организмам.
После того как кроссинговер замедлился, Y-хромосома стала более терпимой к инверсиям, как коротким, так и длинным. Фактически она в своей истории претерпела четыре крупные инверсии, реально глобальные перестройки ДНК. Каждая из них создала много замечательных палиндромов – один из них сразу на три миллиона символов, но каждая вместе с тем приводила к тому, что кроссинговер с Х-хромосомой становился все тяжелее. В этом бы не было особого значения, если не учитывать, что кроссинговер позволяет хромосомам заменять злокачественные мутации. Х-хромосомы могут делать это в женских организмах с парой ХХ, но когда Y-хромосома потеряла своего партнера, злокачественные мутации начали накапливаться. И с появлением каждой новой мутации у клеток не было иного выбора, кроме как избавляться от Y-хромосомы и удалять мутировавшую ДНК. Результаты оказались неутешительны. Y-хромосома, когда-то имевшая внушительные размеры, потеряла почти все свои гены: из 1400 осталось чуть больше 20. При таком раскладе биологи поспешили записать «игреков» в доходяги. Похоже, что этим хромосомам суждено продолжать накапливать неблагополучные мутации и становиться короче и короче, пока эволюция не покончит с Y-хромосомами – и, возможно, в придачу и с мужчинами – совсем.
Палиндромы, однако, могут помиловать Y-хромосому. Шпильки в цепи ДНК – это плохо, но если Y-хромосома загнется в гигантскую шпильку, это может привести к тому, что два ее палиндрома – с тем же набором генов, но идущим в противоположном порядке – вступят в контакт. Это позволит Y-хромосоме проверяться на наличие мутаций и заменять проблемные участки. Это все равно что написать: «А роза упала на лапу Азора» на листе бумаги, сложить бумагу чтобы буквы двух половин совпали, а потом буква за буквой исправлять все расхождения. Нечто подобное около 600 раз повторяется при рождении каждого мальчика. «Складывание» также позволяет «игрекам» компенсировать недостаток половой хромосомы-партнера и «рекомбинировать» с самими собой, заменяя гены на протяженности одного участка генами из другой точки.
Это палиндромное исправление совершенно гениально. Даже можно сказать, слишком гениально. Система, которую Y-хромосома использует для того, чтобы сравнивать палиндромы, к сожалению, не «знает», какой из палиндромов мутировал, а какой – нет; она только может определить, что они не совпадают. Поэтому нередко Y-хромосома заменяет хороший ген плохим. Авторекомбинация также (внимание!) приводит к тому, что ДНК между палиндромами случайным образом удаляется. Такие ошибки редко приводят к смерти человека, но могут сделать его семя бесплодным. В общем, Y-хромосома может исчезнуть, если не сможет корректировать мутации наподобие этой; но то, что нужно для такой корректировки – палиндромы, может, так сказать, кастрировать хромосому.
* * *
И лингвистические, и математические свойства ДНК способствуют ее конечной цели: управлению данными. Клетки накапливают информацию и обмениваются ею друг с другом с помощью ДНК и РНК, и ученые уже привыкли говорить о программировании и обработке информации нуклеиновыми кислотами, будто бы генетика является отраслью криптографии или информатики.
И действительно, современная криптография в какой-то мере происходит из генетики. В 1915 году молодой генетик по имени Уильям Фридман окончил Корнелльский университет и присоединился к эксцентричному научному обществу, базировавшемуся в одной из деревень Иллинойса. Это общество могло похвастаться голландской ветряной мельницей, ручным медведем по имени Гамлет и маяком – последнее особенно забавно ввиду того, что дело происходило в доброй тысяче километров от побережья. Первым делом босс Фридмана поручил ему исследовать, как лунный свет влияет на гены пшеницы. Но благодаря полученным в университете знаниям по статистике молодой ученый вскоре оказался вовлечен в другой сумасбродный проект своего начальства[23]. Целью проекта было доказать то, что Фрэнсис Бэкон не только написал пьесы Шекспира, но и оставил на страницах Первого фолио[24] подсказки, свидетельствующие о своем авторстве. Подсказки включали в себя изменение формы отдельных букв.
Фридман воодушевился этим заданием – он полюбил работать с шифрами с тех самых пор, как в детве прочел «Золотого жука» Эдгара По – и доказал, что предполагавшиеся отсылки на Бэкона – это полная чушь. Он писал, что по тем же схемам дешифровки можно «доказать» что угодно: например, что «Юлия Цезаря» написал Теодор Рузвельт. Тем не менее Фридман заинтересовался генетикой как биологическим инструментом расшифровки кодов и после успешных попыток реальной дешифровки стал криптографом, работающим на правительство США. Основываясь на статистических знаниях, накопленных из генетики, Фридман вскоре сумел прочитать секретные телеграммы, которые в 1923 году спровоцировали так называемый скандал «Крышка заварника», связанный с получением взяток представителям власти. В начале 1940-х годов он приступил к расшифровке японских дипломатических кодов, включая десяток скандально известных депеш, отправленных из Японии в японское посольство в Вашингтоне и перехваченных 6 декабря 1941 года: в этих депешах говорилось о том, что война неминуема.
Фридман бросил генетику, потому что в первой четверти ХХ века (по крайней мере на фермах) генетикам приходилось слишком много времени просто сидеть вокруг и ждать, пока глупые звери начнут размножаться: это было больше похоже на животноводство, чем на научный анализ данных. Если бы Фридман родился поколением-двумя позже, он бы смог взглянуть на те же вещи совершенно иначе. К 1950-м годам биологи уже регулярно ссылаются на пары оснований А-Ц-Г-Т как на биологические «биты» и на генетику в целом как на код, который нужно взломать. Генетика окончательно превратилась в анализ данных и продолжала развиваться в этом направлении – в том числе благодаря работе более молодого последователя Уильяма Фридмена – инженера Клода Шеннона. Его работы охватывают как криптографию, так и генетику.
Ученые регулярно цитируют магистерскую диссертацию Шеннона, написанную 21-летним студентом Массачусетского технологического института в 1937 году: эта работа признается самой важной магистерской диссертацией в истории. В ней Шеннон изложил метод комбинирования электронных схем и элементарной логики для проведения математических операций. С помощью этого метода молодой ученый мог проектировать схемы для выполнения сложных вычислений, на которых основываются все цифровые цепи. Десять лет спустя Шеннон написал статью об использовании цифровых цепей для кодирования сообщений и более эффективной их передачи. Едва ли будет преувеличением сказать, что благодаря этим двум открытиям были с нуля созданы современные цифровые коммуникации.
Совершая судьбоносные открытия, Шеннон находил время и для других занятий. В своем офисе он любил жонглировать, ездить на одноколесном велосипеде, а порой делать и то и другое одновременно. Дома он постоянно возился со всяким хламом в подвале. Среди его прижизненных изобретений – фрисби с ракетным двигателем, палочки пого с моторчиком, машины для сборки кубика Рубика, механическая мышь по имени Тесей, выбирающаяся из лабиринтов, программа THROBAC, проводящая вычисления в римских цифрах, и «переносной компьютер» размером с пачку сигарет, предназначенный для того, чтобы срывать банк на рулетке[25].
Шеннон проявил интерес к генетике и в своей докторской диссертации, которую защитил в 1940 году. В то время биологи дорабатывали такой вопрос, как связь между генами и естественным отбором, но многих из них отпугнул большой объем статистики. Хотя позже Шеннон признавался, что в то время почти не разбирался в генетике, он погрузился в эту проблему. Он постарался сделать для генетики то, что уже сделал для электронных схем: свести все сложности к простым алгебраическим расчетам, в результате чего для любых вводных данных (генов в популяции) можно легко и быстро рассчитать результаты (какие гены будут успешно развиваться, а какие – исчезнут). Шеннон посвятил этой статье несколько месяцев, а потом, после защиты докторской, был окончательно соблазнен электроникой и больше никогда не возвращался к генетике. Впрочем, это неважно. Его новая работа послужила основой для информационной теории: настолько универсальной области знаний, что она и без непосредственного участия Шеннона начала активно применяться в генетике.
В соответствии с теорией информации Шеннон определяет, как передавать сообщения с наименьшим количеством ошибок – цель, которую реализовали биологи, аналогична разработке лучшего генетического года, минимизирующего количество ошибок в строении клетки. Кроме того, биологи приняли работы Шеннона об эффективности и избыточности различных языков. Как однажды подсчитал Шеннон, английский язык как минимум на 50 % является избыточным (бульварный роман Реймонда Чандлера, который он исследовал, и вовсе оказался избыточным на 75 %). Биологи также изучали эффективность, так как, согласно естественному отбору, эффективные организмы являются и более здоровыми. Соответственно, менее избыточная ДНК, по их выводам, приведет к тому, что клетка будет накапливать больше информации и быстрее ее обрабатывать, что является серьезным преимуществом. Однако членам клуба галстуков РНК известно, что ДНК в этом отношении более чем неоптимальна. Целых шесть триплетов А-Ц-Г-Т для одной-единственной аминокислоты – чрезвычайная избыточность! Если бы клетки экономили и использовали меньшее число триплетов для аминокислоты, они бы могли собирать больше аминокислот, чем канонические 20, что открыло бы новые горизонты молекулярной эволюции. Ученые в действительности доказали, что должным образом подготовленные клетки в лабораторных условиях могут использовать до 50 аминокислот.
Однако если у избыточности есть недостатки, то, как указывал Шеннон, должны быть и достоинства. Некоторая избыточность языка гарантирует, что мы сможем поддержать беседу, даже если некоторые слоги или целые слова будут утрачены. Блшнств лдй бз прблм мжт прчт прдлжн с прпснн бкв. Другими словами, если слишком большая избыточность отнимает время и энергию, небольшая – препятствует появлению ошибок. Применительно к ДНК избыточность тоже имеет смысл: это делает менее вероятным появление неверных аминокислот в результате мутаций. Более того, биологи подсчитали, что даже если мутация внедрит в организм неправильную аминокислоту, мать-природа подтасует так, что в любом случае шансы на то, чтобы новая аминокислота имела те же физические и химические характеристики и, следовательно, сложилась надлежащим образом, увеличатся. Это можно назвать аминокислотой-синонимом, так как клетки могут сохранить смысл «предложения».
Избыточность может иметь место и за пределами генов. Некодирующая ДНК – длинная последовательность ДНК между генами – содержит некоторые слишком избыточные отрезки символов, которые выглядят так, как будто кто-то не глядя провел пальцами по клавиатуре природы. Хотя эти и прочие участки кажутся мусором, ученым неизвестно, действительно ли такие последовательности не представляют никакой ценности. Один ученый задумался: «Геном – это низкопробный роман, в котором можно вырвать сто страниц, и ничего не изменится, или же он больше похож на произведение Хемингуэя, где вся сюжетная линия может потеряться из-за утраты одной страницы?» Однако в ходе исследований мусорной ДНК, в которых применялись теоремы Шеннона, обнаружилось, что их избыточность во многом похожа на избыточность в языке – это может значить, что некодирующая ДНК имеет еще не открытые лингвистические возможности.
Все это поразило бы Шеннона и Фридмана. Но, пожалуй, самое примечательное здесь то, что помимо прочих разумных функций ДНК также подсказала нам идеи, которые помогли изобрести мощнейшие на сегодня инструменты обработки информации. В 1920-х годах выдающийся математик Давид Гильберт пытался определить, существуют ли какие-либо механические процессы или алгоритмы, позволяющие доказывать теоремы автоматически, почти без размышлений. Гильберт при этом представлял людей, включающихся в этот процесс с карандашом и бумагой в руках. Однако в 1936 году математик (и любитель мастерить фигурки из бумаги) Алан Тьюринг набросал эскиз машины, способной выполнять такую работу. Машина Тьюринга выглядела очень просто: всего лишь длинная магнитофонная лента и устройство, проматывающее и маркирующее ленту, – но теоретически могла рассчитать ответ на каждую имеющую решение задачу, независимо от ее сложности, разбивая задачу на мелкие логичные ходы. Машина Тьюринга вдохновила многих мыслителей, в том числе и Клода Шеннона. Вскоре инженеры начали конструировать работающие модели – мы называем их компьютерами – с длинными магнитными лентами и записывающими головками, во многом похожие на модели Тьюринга.
Биологи, впрочем, знают, что машины Тьюринга практически ничем не напоминают механизмы, которые используются клетками для копирования, маркировки и чтения длинных цепочек ДНК и РНК. Эти тьюринговские биомашины работают в каждой живой клетке, ежесекундно решают любые, самые сложные задачи. Фактически ДНК работает лучше, чем машины Тьюринга: механизмы компьютера нуждаются в программном обеспечении; ДНК же – это и «хард», и «софт» одновременно, они и накапливают информацию, и выполняют команды. Они даже содержат инструкции копировать себя как можно чаще.
И это еще не все. Даже если бы ДНК была способна лишь на то, о чем мы уже узнали – раз за разом создавать свои точные копии, вытягивать в нити РНК и белки, выдерживать повреждения от ядерных взрывов, кодировать слова и фразы, даже высвистывать популярные мелодии, – уже это позволило бы ей считаться чудесной молекулой, одной из лучших. Но помимо всех этих достоинств ДНК отличается способностью строить предметы в миллиарды раз больше себя самой – и запускать их в путешествие по всему земному шару. ДНК даже может сохранять «путевые дневники», в которых указано, что каждое из ее созданий видело и делало в своей жизни, и сейчас, наконец, несколько особо удачливых существ, изучивших основы того, как работает ДНК, могут читать эти истории.
16
Взято из перевода Н. Демуровой, наиболее известного русскоязычному читателю. В оригинале – ambition, distraction, uglif cation, and derision. Примеч. пер.
17
В оригинале – writhing вместо writing. Перевод конструкции – мой, так как ни в одном из существующих подходящей аналогии нет. При меч. пер.
18
Сам Ципф считал, что его закон показал нечто универсальное в человеческом разуме, а именно – лень. Он доказывал: при разговоре мы хотим тратить как можно меньше энергии для достижения цели, поэтому используем общеупотребительные слова, например «плохо», потому что они короткие и легко приходят на ум. Что мешает нам употреблять слова «низко», «мерзко», «фальшиво», «неподходяще», «ненавистно», «глупо», «вредно для мозгов» вместо слова «плохо»? Лень наших собеседников, которые не хотят тратить силы на то, чтобы различать все возможные значения слова. Они хотят, чтобы все было точно и как можно быстрее. Подобное «перетягивание каната» с ленью приводит к тому, что общеупотребительные слова делают львиную долю работы в любом языке, но более редкие и более наглядные слова тоже должны появляться здесь и сейчас – чтобы умиротворить занудных книгочеев. Само по себе это звучит толково, но многие исследователи утверждают, что любое «дотошное» объяснение закона Ципфа – это (используем другое общепринятое слово) фигня. Они отмечают, что распределение, подобное ципфианскому, может проявиться в любой хаотической ситуации. Даже компьютерные программы, выдающие случайные наборы букв и пробелов – цифровой вариант обезьян с пишущими машинками, – могут производить слова, частота которых будет соответствовать закону Ципфа.
19
От англ. frameshif – букв. «рамка считывания». При меч. пер.
20
Имеется в виду runcible spoon – словосочетание, употребленное Эдвардом Лиром в произведении «Совенок и кошечка» (T e Owl and the Pussycat poem). Runcible – вымышленное слово, поэтому о том, какой конкретно предмет Лир имел в виду, до сих пор ведутся споры среди литературоведов и любителей творчества писателя. При меч. пер.
21
Аналогия между генетическим и человеческим языками некоторым кажется неоднозначной, слишком привлекательной, чтобы быть правдой. Аналогии всегда могут зайти слишком далеко, однако мне кажется, что подобные несогласия частично обоснованы нашей эгоистичной склонностью думать, что язык – это всего лишь совокупность звуков, которые издают люди. Однако язык – это нечто более широкое: это система правил, которые могут регулировать любое информационное взаимодействие. Клетки, как и люди, могут взаимодействовать с окружающей средой и контролировать, что они «говорят» в ответ. Нас не должно смущать то, что они делают это с помощью молекул, а не воздушных волн (другими словами, звуков). Признавая это, некоторые современные учебники по клеточной биологии включают в себя главы о теории Хомского, посвященной базовой структуре языков.
22
Этот палиндром переводится примерно так: «Крестьянин Арепо работает с плугом», где rotas (в буквальном смысле – «колеса») обозначает движения туда и назад, которые совершает плуг при вспашке. Этим «магическим квадратом» на протяжении столетий восхищались любители головоломок, однако ученые предполагали, что это не просто забава: во времена жестоких римских императоров она могла служить другим целям. Анаграмма этих 25 букв может выглядеть как дважды написанное перекрещенное paternoster – «Отче наш». Четыре оставшиеся буквы, две «а» и две «о», могут обозначать «Альфа и омега» (выражение, известное из книги Иоанна Богослова). Согласно этой версии, христиане могли рисовать этот безобидный палиндром на своих дверях и тем самым подавать друг другу сигналы, не опасаясь подозрения со стороны римлян. Волшебный квадрат также считался средством против черта, так как палиндромы могут сбить его с толку.
23
Босс Уильяма Фридмана, «Полковник» Джордж Фабиан, прожил непростую жизнь. Его отец открыл хлопковую компанию «Блисс Фабиан» и готовил сына в продолжатели своего дела. Однако юноша поддался жажде странствий и вместо этого убежал в Миннесоту работать лесорубом: за это возмущенный отец лишил его наследства. Через два года Фабиан устал строить из себя Поля Баньяна и решил вернуться к семейному бизнесу: под вымышленным именем устроившись на работу в офис «Блисс Фабиан» в Сент-Луисе. Вскоре он побил все рекорды продаж, и отец вызвал успешного сотрудника в главный офис компании в Бостоне, чтобы поговорить о повышении. Совершенно неожиданно для Фабиана-старшего в кабинет вошел его сын!
После этого поистине шекспировского воссоединения семьи Фабиан преуспел в хлопковом бизнесе и использовал свои средства, чтобы открыть собственный научно-исследовательский центр. В течение многих лет он субсидировал самые разные исследования, но особое внимание уделял проблеме авторства Шекспира. После того как тайна якобы была разгадана, Фабиан собирался издать книгу об этом, но за это на него подал в суд один из режиссеров, снимавших фильмы на сюжеты Шекспира: он утверждал, что такая книга может разрушить репутацию классика мировой литературы. Местный судья по неизвестной причине встал на сторону Фабиана: века литературной критики не сумели одолеть американского юриста! Судья огласил решение: «Автором работ, ошибочно приписываемых Шекспиру, является Фрэнсис Бэкон» и обязал киношников заплатить Фабиану пять тысяч долларов за моральный ущерб.
Большинство специалистов относится к доказательствам против авторства Шекспира так же снисходительно, как биологи – к теории «материнских впечатлений». Однако не ранее как в 2009 году несколько юристов из Верховного суда США также высказали мнение, что Шекспир не мог написать своих пьес. Главный вывод из всего этого может выглядеть так: у юристов, ученых и историков различные понятия о правде и доказательствах.
24
Первое фолио – первое полное собрание пьес Шекспира, изданное в 1623 году членами шекспировской труппы Джоном Хемингом и Генри Конделом. При меч. пер.
25
Хитроумный прибор для казино так и не окупился. Его идея принадлежала инженеру Эдварду Торпу, который в 1960 году позвал на помощь Шеннона. Два человека работали за рулеточным столом в паре, хоть и притворялись, что незнакомы друг с другом. Один из них наблюдал за вращением шарика рулетки и отмечал, в какие моменты он проходит определенные точки на колесе. Затем он, нажимая кнопку миниатюрного переключателя в ботинке большим пальцем ноги, подавал сигналы компьютеру в своем кармане. Компьютер, в свою очередь, посылал радиосигналы. Второй человек, с наушником в ухе, слышал эти сигналы как музыкальные ноты и, в зависимости от высоты звука, знал, куда поставить деньги. Они окрасили все провода (например, провод от наушника) в телесный цвет и замаскировали их с помощью театрального грима.
Торп и Шеннон подсчитали, что их схема будет приносить прибыль в 44 % случаев, но при первом испытании в казино Шеннон сдрейфил и делал лишь копеечные ставки. Они выигрывали чаще, чем проигрывали, но, возможно, уловив красноречивые взгляды старожилов, направленные на дверь, Шеннон потерял интерес к предприятию. В итоге дело, по-видимому, оказалось убыточным, учитывая, что компаньоны потратили 1500 долларов, заказав для тренировок настоящую рулетку из игорной столицы Рино. Оставшийся в одиночестве Торп опубликовал свою работу, но до полного запрета портативной электроники в казино прошло еще довольно много лет.