Читать книгу Математические модели в естественнонаучном образовании. Том II - Денис Владимирович Соломатин - Страница 2
Глава 5. Построение филогенетических деревьев
5.1. Филогенетические деревья
ОглавлениеПрежде чем начнем разрабатывать методы построения филогенетических деревьев, понадобится некоторая терминология. Поскольку последовательности, которые, возможно, захотим связать, могут происходить от разных видов, как в примере с гоминоидами, или вместо этого от разных подвидов, популяций или даже отдельных особей, будем называть каждый источник последовательности ДНК таксоном (множественное число таксоны). Эквивалентный общеупотребительный термин – операционная таксономическая единица, обычно обозначаемая аббревиатурой ОТЕ (в иностранной литературе можно встретить обозначение OTU).
Будет стараться нарисовать диаграмму, состоящую из отрезков линий, которая представляет собой эволюционную историю таксонов. Каждый из сегментов линии на диаграмме по устоявшейся в теории графов терминологии называется ребром. Диаграмма, подобная приведенной выше, в которой нет циклов и петель, образованных ребрами, называется деревом.
Вопросы для самопроверки:
– Почему разумно предположить, что эволюционные отношения могут быть смоделированы путем рисования именно деревьев? Что бы это значило, если бы существовали цикл или петля?
Поскольку существует боковой перенос генов, например, когда вирусная ДНК постоянно включается в ДНК хозяина, деревья не могут описать все эволюционные отношения. Они обеспечивают простейшую модель, которая, тем не менее, полностью адекватна для большинства применений.
Точка, в которой сходятся нескольких ребер называется внутренней вершиной, в то время как висячий конец ребра у таксона называется конечной вершиной или листом дерева. Вершина, в которой будет находиться общий предок всех таксонов, называется корнем.
Говорят, что дерево раздваивается, находится в состоянии бифуркации, если на каждой его внутренней вершине встречаются по три ребра, а у корня сходится два ребра, как на деревьях на рисунке 5.1. Такие деревья называют двоичными или бинарными. Хотя с биологической точки зрения возможно, что дерево, отличное от двоичного, могло бы описывать эволюционную историю, обычно эту возможность игнорируют.
Вопросы для самопроверки:
– Каково было бы эволюционное значение вершины в дереве, где встречаются четыре ребра (то есть, где маршрут из одного ребра расходится на три направления)? Можете ли представить себе правдоподобные обстоятельства, при которых несколько видов могут расходиться таким образом?
Хотя в идеале каждое филогенетическое дерево должно иметь корень, показывающий общего предка таксонов, иногда приходится обходиться без него. Некоторые методы филогенетического построения деревьев дают некорневые деревья. Например, на рисунке 5.2 показано некорневое дерево и несколько корневых деревьев, которые с ним согласуются. Два дерева справа могли быть согнуты и растянуты, чтобы выглядеть как дерево слева; их отличает только расположение корня.
Рисунок 5.2. Некорневое дерево (слева) и две его корневые версии (в центра и справа).
Посмотрим на деревья с топологической точки зрения. Дерево, относящееся к ряду таксонов, может фактически указывать несколько различных типов информации об их отношениях. Во-первых, если не указываем длины ребер, а значит, смотрим только на ветвящуюся структуру, то рассматриваем только топологию дерева. Считается, что два дерева топологически одинаковы, если можно согнуть и растянуть ребра одного из них, чтобы получить второе дерево. Однако нельзя отрезать ребро и снова прикреплять его в другом месте; это может дать дерево, которое топологически отличается от исходного.
На рисунке 5.3 деревья , и топологически совпадают с некорневыми деревьями, потому что, если бы какая-либо из этих фигур была сделана из резины, ее можно было бы деформировать в другие, не разрезая и не склеивая куски вместе. Дерево , напротив, топологически отличается от , и .
Для корневых деревьев используем аналогичную концепцию. Два корневых дерева топологически эквивалентны, если одно можно преобразовать в другое, не перемещая корень. Можно изменить длину ребер, но не структуру ветвления.
Рисунок 5.3. Четыре топологических дерева; как некорневые деревья, все, кроме правого нижнего, они идентичны.
Вопросы для самопроверки:
– Как на рисунке 5.3 расположить корень дерева , чтобы полученное дерево не было топологически эквивалентным корневому дереву ? А чтобы получилось топологически то же самое, что и корневое дерево ?
Топологическое дерево, даже некорневое, довольно многое говорит об эволюционной истории таксонов, к которым оно относится. Например, все деревья на рисунке 5.2 показывают, что таксоны и связаны одним разделением линии, точно так же как и . Тем не менее, несколько раздвоений линии произошли между и , эволюционировавших от общего предка, поскольку в процессе возникли два других таксона.
Знание местоположения корня передает больше информации и может дать лучшее представление о порядке событий во времени. Например, изображенное справа на рисунке 5.2 дерево однозначно задаёт следующий порядок бифуркаций: общий предок дал начало двум таксонам, один из которых, возможно, эволюционировал дальше, чтобы стать ; другой впоследствии породил и третий таксон; этот третий таксон затем породил и .
Дерево в центре рисунка 5.2 можно интерпретировать аналогичным образом. Общий предок дал начало двум таксонам, один из которых дал начало как , так и , в то время как другой дал начало и . Обратите внимание, однако, что только с топологическим деревом не можем сказать, какое из этих двух последних бифуркации произошло первым: существовал ли самый последний общий предок и более поздний, чем и ? Нет возможности определить это по дереву.
Количество различных топологических деревьев, которые могут соотносить несколько терминальных таксонов, быстро растёт с увеличением числа таксонов. Например, существует только 1 некорневое топологическое дерево, относящееся к 3 таксонам, но есть 3 некорневых топологически различных дерева, относящиеся к 4 таксонам.
Вопросы для самопроверки:
– Нарисуйте одно некорневое топологическое дерево, которое может относиться к терминальным таксонам , и . Нарисуйте три некорневых топологических дерева, которые могут относиться к терминальным таксонам , , и .
На 5 терминальных таксонов приходится 15 таких деревьев. Таким образом, если не принимать во внимание местонахождение корня, существует на 13 деревьев, которые могут связать 5 гоминоидов, а больше, чем было представлено во введении к главе. Для 6 терминальных таксонов насчитывается более 100 возможных некорневых деревьев. По мере увеличения числа таксонов количество деревьев быстро вырастает до астрономических размеров. В упражнениях найдете точные формулы, определяющие количество некорневых и корневых деревьев, относящихся к таксонам. Также увидите, насколько велики эти числа, даже для относительно небольшого числа таксонов. Большое количество деревьев вызывает дискомфорт, потому что это означает, что некоторые подходы к поиску хорошего дерева для соотнесения таксонов будут медленными. Если метод находит «лучшее» дерево, рассматривая каждое возможное дерево по отдельности, то его использование будет чрезвычайно трудоемким, когда задействовано много таксонов.
На помощь в решении обозначенной проблемы поиска лучшей классификации приходят метрические деревья. В дополнение к топологической структуре дерево может иметь метрическую структуру; каждому ребру может быть присвоена определенная длина. Эта метрическая структура может быть задана путем записи чисел для обозначения длин рядом с ребрами (см. Рисунок 5.4 (слева)), или ребро может быть наглядно представлено путем рисования дерева с ребрами соответствующей длины, но без их явной нумерации. Таким образом, топологическое дерево и немаркированное метрическое дерево неотличимы друг от друга. Для ясности, будем маркировать ребра их длиной, когда нужно задать метрическое дерево.
Как правило, длины ребер в филогенетическом дереве, построенном из данных последовательности ДНК, каким-то образом представляют собой количество мутаций, которые произошли между расщеплениями линии. Чем длиннее ребро, тем больше последовательность ДНК мутировала в ходе эволюции, которую представляет это ребро.
Если, например, модель Джукса-Кантора замещения оснований адекватно описала эволюцию нескольких таксонов, то длина ребра в дереве, относящемся к ним, может быть расстоянием Джукса-Кантора между последовательностями на двух концах. Как видели в главе 4, это расстояние представляет собой среднее число замен оснований на сайт, произошедших при происхождении новой последовательности. Сюда включены мутации, скрытые другими мутациями, для оценки которых была разработана формула расстояния. Поскольку расстояние Джукса-Кантора является аддитивным и симметричным, общее расстояние между двумя таксонами вдоль дерева должно быть расстоянием Джукса-Кантора между ними.
Если предположение о молекулярных часах справедливо для эволюции связанных последовательностей, то расстояния в дереве имеют постоянное значение. Напомним, что молекулярные часы просто означают, что скорость мутаций постоянна для всех рассматриваемых линий. Если обозначает скорость мутации, измеряемую, например, в количестве произошедших за год замен оснований на сайт, а обозначает время в годах, то количество мутаций, которое произойдет в течение этого времени, составляет базовых замен на сайт.
Таким образом, молекулярные часы означают, что количество мутаций на любом ребре пропорционально прошедшему времени, при этом константа пропорциональности представляет собой постоянную скорость мутации. Если предположить, что существуют молекулярные часы, то независимо от того, рисуем ли длины ребер, представляющие количество мутаций или только прошедшее время, то нарисуем одну и ту же фигуру с точностью до масштаба этой константы.
Если гипотеза молекулярных часов справедлива для корневого метрического дерева, то каждый лист будет расположен на одинаковом общем расстоянии от корня дерева. Это связано с тем, что расстояния от корня пропорциональны времени, прошедшему с тех пор, как таксоны начали расходиться с общим предком. У каждого таксона было одинаковое количество времени, чтобы эволюционировать от корневого предка, поэтому каждый таксон накопит одинаковое количество мутаций.
Без молекулярных часов связь между количеством мутаций вдоль ребра и количеством времени может быть сложной для моделирования. Предположим, что вдоль одного ребра филогенетического дерева частота мутаций была довольно мала, а вдоль другого – частота мутаций была большой. Затем несмотря на то, что оба края могут соответствовать одинаковому количеству времени, вдоль одного из них произойдет значительно больше мутаций. Без получения какой-либо дополнительной информации о скорости мутации – возможно, путем сравнения с летописью окаменелостей – обычно нет способов определения прошедшего времени, связанного с ребрами деревьев.
Метрические деревья иногда рисуются в «квадратном» стиле, чтобы было легче сравнивать расстояния по различным эволюционным путям. Например, два дерева на рисунке 5.4 представляют одну и ту же информацию. В дереве слева ребра имеют указанную длину, а в дереве справа горизонтальные ребра имеют те же длины. Таким образом, вертикальные ребра на правом дереве считываются как не вносящие никакого вклада в количество мутаций; они служат исключительно для разделения различных линий для повышения читабельности.
Рисунок 5.4. Разные изображения одного и того же метрического дерева.
Задачи для самостоятельного решения:
5.1.1. Рассмотрим деревья на рисунке 5.5.
Рисунок 5.5. Деревья для задачи 5.1.1.
а. Какие из них совпадают с корневыми метрическими деревьями?
б. Какие из них совпадают с некорневыми метрическими деревьями?
в. Какие из них такие же, как корневые топологические деревья?
г. Какие из них такие же, как некорневые топологические деревья?
д. Для каких деревьев работают молекулярные часы?
5.1.2. а. Нарисуйте единственное топологически уникальное некорневое раздвоенное дерево, которое могло бы описать связь между 3 таксонами.
б. Нарисуйте три топологически различных корневых раздвоенных дерева, которые могли бы описать связь между 3 таксонами.
5.1.3. а. Нарисуйте все 3 топологически различных некорневых раздвоенных деревьев, которые могли бы описать связь между 4 таксонами.
б. Нарисуйте все 15 топологически различных корневых раздвоенных деревьев, которые могли бы описать связь между 4 таксонами.
5.1.4. Для терминальных таксонов количество некорневых раздвоенных деревьев можно найти как . Составьте таблицу значений и отобразите эту функцию для .
5.1.5. Для терминальных таксонов количество корневых раздвоенных деревьев равно значению . Составьте таблицу значений и отобразите эту функцию для .
5.1.6. В этой задаче рассмотрим рассуждения, лежащие в основе формул для числа топологически различных деревьев, корневых и некорневых.
а. Предположим известно, что некорневое дерево с концевыми вершинами состоит из ребер. Объясните, почему некорневое дерево с концевыми вершинами будет иметь ребра. Подсказка: подумайте о том, как добавление еще одной конечной вершины в существующее дерево влияет на количество ребер.
б. Поскольку некорневое дерево с 2 концевыми вершинами имеет 1 ребро, объясните из пункта (а), почему некорневое дерево с концевыми вершинами будет иметь ребра.
в. Предположим известно, что существует некорневых деревьев с концевыми вершинами. Объясните, почему существует некорневых деревьев с концевой вершиной. Подсказка: подумайте, сколькими различными способами можно добавить еще одну конечную вершину к существующему дереву.
г. Поскольку существует только 1 некорневое дерево с 2 концевыми вершинами, объясните используя пункт (c), почему существует некорневых деревьев с концевыми вершинами при .
д. Объясните, почему .
е. Почему число корневых деревьев с концевыми вершинами такое же, как число некорневых деревьев с концевыми вершинами?
ж. Сделайте вывод о правильности формул в задачах 5.1.4 и 5.1.5.
5.1.7. Поскольку митохондриальная ДНК у человека наследуется исключительно от матери, она может быть использована для структуры, относящейся к любому количеству людей из разных этнических групп, предполагая, что все люди произошли от одной первой человеческой самки. В зависимости от модели кластеризации этнических групп, это может дать представление о физическом местоположении той женщины, которую иногда называют митохондриальной Евой.
В работе Канна 1987 года была впервые предпринята попытка определить местонахождение митохондриальной Евы в Африке. Поддерживая теорию происхождения человека «из Африки», было построено дерево с корнями, которое, как утверждается, показывает отношения между 147 людьми. Сколько топологически различных деревьев нужно было бы рассмотреть, если бы действительно рассматривалась каждая возможность? Возможно, для ответа на этот вопрос придется использовать формулу Стирлинга: . Здесь символ «∼» можно интерпретировать как «приблизительно». Изучению последствий трудности рассмотрения стольких деревьев посвятил свою работу Гиббонс в 1992 году.
5.1.8. Филогенез четырех терминальных таксонов A, B, C и D связан по определенному метрическому дереву. Суммарные расстояния между таксонами вдоль дерева оказались такими же, как в таблице 5.1.
Таблица 5.1. Расстояния между таксонами для задачи 5.1.8
A B C D
A .6 .6 .2
B .4 .6
C .6
а. Используя любой подход, который пожелаете, определите правильное некорневое дерево, относящееся к этим таксонам, а также все длины его ребер. Объясните, как исключили другие топологические деревья.
б. Можете ли определить корень дерева по этим данным? Объясните, почему да или почему нет.
Примечание: Методы решения такого рода проблем являются предметом следующих разделов.